In [20]:
import numpy as np
import pandas as pd
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

## Arreglos y computación vectorizada

Numpy permite hacer computación numérica de forma eficiente, evita escribir loops para operaciones numéricas, algebra lineal, algorítmos como ordenar, únicos y operaciones de conjuntos, estadísticas descriptivas eficientes, manipulación de datos relacional, entre otros.

In [2]:
import numpy as np

arr = np.arange(1_000_000)
lista = list(range(1_000_000))

%timeit arr2 = arr * 2

795 µs ± 29.8 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [4]:
%timeit lista2 = [x * 2 for x in lista]

46.8 ms ± 628 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Un objeto de arreglo multidimensional

Una de las principales características es el objeto arreglo N-dimensional, un contenedor rápido y flexible para conjuntos de datos grandes en Python. Los arreglos permiten hacer operaciones matemáticas en bloques completos usando una sintaxis similar a las operaciones entre escalares.

In [5]:
data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [6]:
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [7]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

Un **ndarray** es un contenedor multidimensional para datos homogéneos. Todo arreglo debe tener forma, una tupla indicando el tamaño de la dimensión; y un **dtype** describiendo el tipo de datos del arreglo.

In [8]:
data.shape

(2, 3)

In [9]:
data.dtype

dtype('float64')

### Creando ndarrays

La forma más fácil es usar la función `array`. Acepta cualquier objeto de tipo secuencia y produce un array de numpy

In [10]:
data1 = [6, 7.5, 8, 0, 1]

arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [11]:
# las secuencias anidadas se convierten en arrays multidimensionales

data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [12]:
# tiene dos dimensiones

arr2.ndim

2

In [13]:
arr2.shape

(2, 4)

In [14]:
# el tipo de datos es almacenado en un objeto de metadatos 

arr1.dtype

dtype('float64')

In [15]:
arr2.dtype

dtype('int32')

Hay más opciones para crear un arreglo, por ejemplo `numpy.zeros`, `numpy.ones` crean un arreglo de 0's y 1's con un valor dado de longitúd o forma. `numpy.empty` crea un arreglo sin inicializar sus valores a algún valor en particular.

In [16]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [17]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [22]:
np.empty((2, 3, 2))

# estos son valores basura cercanos a cero, no son cero

array([[[1.2662e-311, 3.1620e-322],
        [0.0000e+000, 0.0000e+000],
        [6.3660e-314, 2.5258e-052]],

       [[7.6023e-042, 2.6204e+180],
        [2.7427e-057, 1.6865e-051],
        [3.3464e-061, 9.9657e-043]]])

In [21]:
# np.arange es una versión de arreglo de la función range

np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Hay otras funciones como `array`, `asarray`, `arange`, `ones`, `ones_like`, `zeros`, `zeros_like`, `empty`, `empty_like`, `full`, `full_like`, `eye`, `identity`

### Tipos de datos para ndarrays

Se puede especificar el tipo de dato

In [23]:
arr1 = np.array([1, 2, 3], dtype = np.float64)
arr2 = np.array([1, 2, 3], dtype = np.float32)

arr1.dtype

dtype('float64')

In [24]:
arr2.dtype

dtype('float32')

In [25]:
# se puede convertir explícitamente una arreglo de un tipo de dato a otro

arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [26]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

In [28]:
float_arr.dtype

# se transformaron los enteros a floats

dtype('float64')

In [29]:
# si transformo decimales a enteros los decimales se borran

arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [30]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [31]:
# si se tienen cadenas con números se pueden convertir a números

cadenas_num = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
cadenas_num.astype(float)

array([ 1.25, -9.6 , 42.  ])

### Aritmética con arreglos Numpy

Los arreglos son importantes porque permiten expresar operaciones en datos sin escribir loops, esto se llama **vectorización**

In [33]:
arr = np.array([[1., 2., 3.],
               [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [34]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [35]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [36]:
1 / arr

array([[1.    , 0.5   , 0.3333],
       [0.25  , 0.2   , 0.1667]])

In [37]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [38]:
# se pueden hacer comparaciones entre arreglos

arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [39]:
arr > arr2

array([[ True, False,  True],
       [False,  True, False]])

Evaluar operaciones entre arreglos de diferentes tamaños se llama **broadcasting**.

### Indices básicos y deslizamiento

Los arreglos de una dimensión son similares a una lista

In [40]:
arr = np.arange(10)

arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
arr[5]

5

In [42]:
arr[5:8]

array([5, 6, 7])

In [45]:
arr[5:8] = 12
arr

# cualquier deslizamiento es una vista del arreglo original, los datos no son copiados
# cualquier modificación a la vista se verá reflejada en el arreglo de origen

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [46]:
arr_desliz = arr[5:8]
arr_desliz

array([12, 12, 12])

In [47]:
arr_desliz[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [48]:
# [:] selecciona todos los valores

arr_desliz[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [43]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Con más de una dimensión se tiene más opciones. Los elementos de cada índice ya no son escalares, son arreglos de una dimensión 

In [49]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [50]:
# se puede seleccionar los elementos con comas

arr2d[0, 2]

3

In [51]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [52]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [53]:
# escalares y arreglos se pueden asignar a arr3d[0]

valores_viejos = arr3d[0].copy()

arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [54]:
arr3d[0] = valores_viejos
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [56]:
# arr3d[1, 0] da los valores los cuales lo indices empiezan con (1, 0)

arr3d[1, 0]

array([7, 8, 9])

In [57]:
# sería igual a

x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [58]:
x[0]

# esta forma de indexar no funciona con objetos regulares de Python como listas de listas

array([7, 8, 9])

##### Indexando con deslizamiento

Los ndarrays pueden ser deslizados con una sintaxis familiar

In [59]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [60]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [61]:
# para uno de dos dimensiones es algo diferente

arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [62]:
arr2d[:2] # desliza en el eje 0, selecciona las primeras dos filas del arreglo

array([[1, 2, 3],
       [4, 5, 6]])

In [63]:
# se pueden pasar multiples deslizamientos 

arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [66]:
# se crean vistas de menor dimensión

arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [67]:
arr2d[1, :2]

array([4, 5])

In [68]:
# seleccionar la tercera columna y solo las primeras dos filas

arr2d[:2, 2]

array([3, 6])

In [69]:
# se puede diferentes dimensiones

arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [70]:
# asignar una escalar asigna toda la sección

arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### Indexamiento booleano

Consideremos cuando por ejemplo, tenemos datos en un arreglo y un arreglo con nombres duplicados

In [71]:
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2],
                 [-12, -4], [3, 4]])

names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [72]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

Cada nombre corresponde a una fila en el arreglo y queremos seleccionar las filas que correspondan al nombre 'Bob'

In [73]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [74]:
data[names == 'Bob']

array([[4, 7],
       [0, 0]])

El arreglo booleano tiene que ser de la misma longitúd del arreglo que está indexando, se pueden combinar arreglos booleanos con deslizamiento o enteros.

Por ejemplo donde el nombre sea Bob y el indice de la columna

In [76]:
data[names == 'Bob', 1:]

array([[7],
       [0]])

In [77]:
data[names == 'Bob', 1]

array([7, 0])

In [79]:
# para seleccionar excepto Bob se puede usar != o ~:

names!= 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [80]:
~(names == 'Bob')

array([False,  True,  True, False,  True,  True,  True])

In [81]:
data[~(names == 'Bob')]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [82]:
cond = names == 'Bob'
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [83]:
# Para seleccionar dos o tres nombres usamos las condicionales booleanas

mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [85]:
data[mask]

array([[ 4,  7],
       [-5,  6],
       [ 0,  0],
       [ 1,  2]])

Seleccionar datos de un arreglo por booleano indexando y asignando el resultado siempre crea una copia de los datos.

Estableciendo valor con un arreglo booleano funciona dando el valor a la derecha donde los resultados sean `True`

In [87]:
data[data < 0] = 0
data

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

In [88]:
data[names != 'Joe'] = 7
data

array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])