# Unit 1: Numpy Array Data Structure for Optimal Computational Performance

## Unit 1.2 NumPy Array Basics

In [5]:
import numpy as np

In [2]:
np.__version__

'1.26.4'

`ndarray` es un objeto que representa un array n-dimensional

In [3]:
np.array([1,3,5,7,9])

array([1, 3, 5, 7, 9])

In [4]:
arr1 = np.array([1,3,5,7,9])

In [5]:
type(arr1)

numpy.ndarray

Creamos otro similar:

In [6]:
arr2 = np.array([1,3,5,7,9])

Observemos que no tienen la misma identidad:

In [7]:
arr1 is arr2

False

In [8]:
id(arr1)

4442070864

In [9]:
id(arr2)

4442068944

In [10]:
#Nos permite conocer si comparten memoria dos array:
np.shares_memory(arr1,arr2)

False

Si ahora asignamos uno de ellos a otra variable, serán 2 referencias al mismo objeto:

In [11]:
arr3 = arr1

In [12]:
arr3 is arr1

True

In [13]:
arr3 is arr2

False

In [14]:
id(arr3) # coincide con id(arra1)

4442070864

Si queremos copiar un valor (por oposición a copiar la referencia al objeto), podemos usar:

In [15]:
arr4 = np.copy(arr1)

In [16]:
arr4

array([1, 3, 5, 7, 9])

In [17]:
arr4 is arr1

False

In [18]:
np.shares_memory(arr1,arr4)

False

In [19]:
# Creamos una copia usando slice en lugar del método copy:
arr5 = arr1[:]
arr5

array([1, 3, 5, 7, 9])

In [20]:
arr5 is arr1

False

In [21]:
np.shares_memory(arr1, arr5) # atención:

True

In [22]:
arr1[0] = 1000
arr1

array([1000,    3,    5,    7,    9])

In [23]:
arr5 # a pesar de que arr5 y arr1 NO son el mismo objeto

array([1000,    3,    5,    7,    9])

In [24]:
# sin embargo
arr4

array([1, 3, 5, 7, 9])

### Creando arrays con tuplas

También podemos crear un ndarray desde una tupla (los ejemplos anteriores eran desde una lista)

In [25]:
type( (1,3,5,7,9) )

tuple

In [29]:
print(np.array( (1,3,5,7,9) ))
type(np.array( (1,3,5,7,9) ))

[1 3 5 7 9]


numpy.ndarray

### Creando arrays con diccionarios

In [30]:
type( {'one':1, 'two':2, 'three':3 } )

dict

In [31]:
arr = np.array( {'one':1, 'two':2, 'three':3 } ) 
arr

array({'one': 1, 'two': 2, 'three': 3}, dtype=object)

In [32]:
arr.shape

()

¿cómo accedemos al contenido de este array que no tiene dimensiones?

In [30]:
arr[0] # no funciona

IndexError: too many indices for array: array is 0-dimensional, but 1 were indexed

In [31]:
arr.item() # podemos acceder con el método item
# Copy an element of an array to a standard Python scalar and return it.

{'one': 1, 'two': 2, 'three': 3}

veremos algún ejemplo más del método `item` cuando veamos arrays multidimensionales

### Creando arrays con sets (conjuntos)

In [33]:
{1, 2, 2, 2, 3, 3, 3, 4}

{1, 2, 3, 4}

In [34]:
type( {1, 2, 2, 2, 3, 3, 3, 4} )

set

In [3]:
# Crear un set
mi_set = {1, 2, 3, 4, 5}

# Añadir un elemento
mi_set.add(6)

# Eliminar un elemento
mi_set.discard(3)

# Operaciones de conjunto
otro_set = {4, 5, 6, 7, 8}
union = mi_set.union(otro_set)
interseccion = mi_set.intersection(otro_set)
diferencia = mi_set.difference(otro_set)

print("Set original:", mi_set)
print("Unión:", union)
print("Intersección:", interseccion)
print("Diferencia:", diferencia)


Set original: {1, 2, 4, 5, 6}
Unión: {1, 2, 4, 5, 6, 7, 8}
Intersección: {4, 5, 6}
Diferencia: {1, 2}


In [35]:
np.array( {1, 2, 2, 2, 3, 3, 3, 4} )

array({1, 2, 3, 4}, dtype=object)

### Creando arrays con `arange`

Es la misma idea que el uso de `range` en Python

In [35]:
#Comprehesion list, mucho más optimizadas, entre 10 y 100 veces mejor.
[i for i in range(10)]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [14]:
for i in range(10):
    print(i)

0
1
2
3
4
5
6
7
8
9


In [7]:
#Devuelve un array de 10 valores entre 0 y 1100 con espacios intermedios iguales
[i for i in np.linspace(0,1100,10)]

[0.0,
 122.22222222222223,
 244.44444444444446,
 366.6666666666667,
 488.8888888888889,
 611.1111111111111,
 733.3333333333334,
 855.5555555555557,
 977.7777777777778,
 1100.0]

In [8]:
[i for i in np.arange(10)]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [37]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [39]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

### El método `len` y la propiedad `size` para ver el tamaño de un array

In [40]:
len10 = np.arange(10)

In [41]:
len()

TypeError: len() takes exactly one argument (0 given)

In [42]:
len10

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [43]:
len( len10 )

10

In [44]:
len10.size

10

### Los arrays numpy lo convierten todo a un mismo tipo

In [45]:
np.array( [111, 2.3, True] )

array([111. ,   2.3,   1. ])

In [46]:
arr5 = np.array( [111, 2.3, True] )

In [47]:
type( arr5[0] )

numpy.float64

In [48]:
arr6 = np.array( [111, 2.3, 'hi'] )

In [49]:
arr6

array(['111', '2.3', 'hi'], dtype='<U32')

In [50]:
type(arr6[0])

numpy.str_

In [51]:
s = np.array( ['apple', 'banana', 'strawberry'] )
s

array(['apple', 'banana', 'strawberry'], dtype='<U10')

In [52]:
# vemos la misma información como si fuesen enteros sin signo de 8 bits
# observa que cada letra ocupa 4 bytes
# por ejemplo, 97 es el código ASCII de la 'a'
s.view('uint8')

array([ 97,   0,   0,   0, 112,   0,   0,   0, 112,   0,   0,   0, 108,
         0,   0,   0, 101,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,  98,   0,   0,   0,  97,   0,   0,   0, 110,   0,   0,   0,
        97,   0,   0,   0, 110,   0,   0,   0,  97,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0, 115,   0,   0,   0, 116,   0,   0,   0, 114,   0,   0,
         0,  97,   0,   0,   0, 119,   0,   0,   0,  98,   0,   0,   0,
       101,   0,   0,   0, 114,   0,   0,   0, 114,   0,   0,   0, 121,
         0,   0,   0], dtype=uint8)

In [53]:
# 120 bytes porque son 3 elementos '<U10', 10*4=40 bytes cada uno
s.nbytes

120

In [54]:
s.itemsize # lo que ocupa (en bytes) cada elemento del array

40

In [55]:
s = np.array( ['apple', 'banana', 'strawberry'], dtype='str')
s

array(['apple', 'banana', 'strawberry'], dtype='<U10')

In [56]:
# ocupará más de lo necesario
s = np.array( ['apple', 'banana', 'strawberry'], dtype='<U12')
s

array(['apple', 'banana', 'strawberry'], dtype='<U12')

In [57]:
a = 

SyntaxError: invalid syntax (2792523948.py, line 1)

In [58]:
s.itemsize # 12*4´

48

In [59]:
s.nbytes

144

In [60]:
# si no cabe recorta en lugar de dar error
s = np.array( ['apple', 'banana', 'strawberry'], dtype='<U3')
s

array(['app', 'ban', 'str'], dtype='<U3')

In [61]:
s.itemsize # 3*4 = 12

12

In [62]:
# > cambia el 'endianismo'
s = np.array( ['apple', 'banana', 'strawberry'], dtype='>U10')
s

array(['apple', 'banana', 'strawberry'], dtype='>U10')

In [63]:
s.view('uint8') # compara con la salida anterior

array([  0,   0,   0,  97,   0,   0,   0, 112,   0,   0,   0, 112,   0,
         0,   0, 108,   0,   0,   0, 101,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,  98,   0,   0,   0,  97,   0,   0,   0, 110,
         0,   0,   0,  97,   0,   0,   0, 110,   0,   0,   0,  97,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0, 115,   0,   0,   0, 116,   0,   0,   0,
       114,   0,   0,   0,  97,   0,   0,   0, 119,   0,   0,   0,  98,
         0,   0,   0, 101,   0,   0,   0, 114,   0,   0,   0, 114,   0,
         0,   0, 121], dtype=uint8)

In [64]:
s = np.array( ['apple', 'banana', 'strawberry'], dtype='S')
s

array([b'apple', b'banana', b'strawberry'], dtype='|S10')

In [65]:
s.view('uint8')

array([ 97, 112, 112, 108, 101,   0,   0,   0,   0,   0,  98,  97, 110,
        97, 110,  97,   0,   0,   0,   0, 115, 116, 114,  97, 119,  98,
       101, 114, 114, 121], dtype=uint8)

In [66]:
s.nbytes # ocupa 1 solo byte por caracter

30

In [67]:
# por contra, no permite caracteres no ASCII
np.array( ['apple', 'banana', 'piña'], dtype='S')

UnicodeEncodeError: 'ascii' codec can't encode character '\xf1' in position 2: ordinal not in range(128)

### Uso de `linspace` para crear arrays

In [68]:
np.linspace(1, 10, 5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [69]:
np.linspace(-10, 10, 21)

array([-10.,  -9.,  -8.,  -7.,  -6.,  -5.,  -4.,  -3.,  -2.,  -1.,   0.,
         1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.])

In [70]:
# también existe logspace y geomspace
np.geomspace(1, 10, 5)

array([ 1.        ,  1.77827941,  3.16227766,  5.62341325, 10.        ])

### Creando arrays con `np.zeros()` y con `np.ones()`

In [71]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [72]:
np.ones(5)

array([1., 1., 1., 1., 1.])

## Arrays multidimensionales

In [73]:
# una lista de listas en Python estándar:
li1 = [ [1,2,3],
        [4,5,6],
        [7,8,9] ]

In [74]:
li1[0][1]

2

In [75]:
# construimos un ndarray con la lista de listas:
np.array(li1)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [76]:
arr2d = np.array(li1)

In [77]:
arr2d.size

9

In [78]:
len(arr2d) # observa que len coincide con la primera dimensión

3

In [79]:
# observa que len coincide con la primera dimensión
# (nº filas) que es el nº iteraciones que realiza un
# bucle for que lo recorre:
for x in arr2d:
    print(x)

[1 2 3]
[4 5 6]
[7 8 9]


In [80]:
arr2d.ndim

2

In [81]:
arr2d.shape

(3, 3)

In [82]:
arr2d[1][2]

6

In [83]:
arr2d.item(1,2) # otra forma de acceder a un elemento

6

In [84]:
# si pasamos 1 argumento interpreta el array como con estructura plana
arr2d.item(5)

6

### También podemos crear un array de más de 2 dimensiones

In [85]:
arr3d = np.array( [ [[1,2],[3,4]], [[5,6],[7,8]] ] )

In [86]:
arr3d

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [87]:
arr3d.ndim

3

In [88]:
arr3d[0][0][0]

1

In [89]:
arr3d.shape

(2, 2, 2)

### Podemos crear arrays multidimensionales con `np.zeros`

In [90]:
np.zeros( (2,3) )

array([[0., 0., 0.],
       [0., 0., 0.]])

In [91]:
arr2dzero = np.zeros( (2,3) )

In [92]:
arr2dzero

array([[0., 0., 0.],
       [0., 0., 0.]])

In [93]:
arr2dzero.dtype

dtype('float64')

In [94]:
type(arr2dzero[0][0])

numpy.float64

In [95]:
arr2dzero2 = np.zeros( (2,3), dtype='int64' )

In [96]:
arr2dzero2 = np.zeros( (2,3), dtype=np.int64 ) # otra forma

In [97]:
arr2dzero2 # observa que los 0s no llevan punto:

array([[0, 0, 0],
       [0, 0, 0]])

In [98]:
arr2dzero2.dtype

dtype('int64')

In [99]:
type(arr2dzero2[0][0])

numpy.int64

### El método `astype` permite cambiar de tipo:

In [100]:
arr2dzero2.astype('float32')

array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)

In [101]:
arr2dzero2f = arr2dzero2.astype('float32')

In [102]:
arr2dzero2 is arr2dzero2f

False

In [103]:
# No confundir astype con view:
np.array([1,2,3,4]).astype('float')

array([1., 2., 3., 4.])

In [104]:
# No confundir astype con view:
np.array([1,2,3,4]).view('float')

array([4.9e-324, 9.9e-324, 1.5e-323, 2.0e-323])

## Propiedades de los arrays Numpy

In [105]:
a = np.array([ [1,2,3], [4,5,6], [7,8,9] ])

In [106]:
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [107]:
a.size

9

In [108]:
a.shape

(3, 3)

In [109]:
a.dtype # int64 son 8 bytes por elemento

dtype('int64')

In [110]:
a.itemsize

8

In [111]:
a.ndim

2

In [112]:
# el shape de un array 1-dimensionale es una tupla 1 elemento:
a1 = np.array([2,5,1,3])
a1.shape

(4,)

Existen otras propiedades:

In [113]:
a.strides # a era de 3x3 de np.int64

(24, 8)

In [114]:
a.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

In [115]:
b = a[:2,:2]
b

array([[1, 2],
       [4, 5]])

In [116]:
b.flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

In [117]:
b.strides

(24, 8)

In [118]:
c = b.transpose()
c.strides

(8, 24)

In [119]:
# si modificásemos c cambiaría a
np.shares_memory(a,c)

True

## Reshape

In [120]:
a2 = np.arange(15)

In [121]:
a2

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [122]:
a2.reshape((3,5))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [123]:
a2

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [124]:
a2 = a2.reshape((3,5))

In [125]:
a2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### `shape` es una *propiedad* que puede ser modificada directamente

> **Nota:** las propiedades son una característica de la programación orientada a objetos de Python. Parecen atributos pero cuando lees o escribes en ellos se ejecuta un método (uno al leer, otro al escribir).

In [126]:
a3 = np.arange(15)

In [127]:
a3

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [128]:
a3.shape = (3,5)

In [129]:
a3

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [130]:
a3.shape = (4,4) # imposible 4*4 != 15, dará error:

ValueError: cannot reshape array of size 15 into shape (4,4)

## Random numbers

`np.random.randn` devuelve una muestra de valores aleatorios extraídos de la distribución estándar (media 0, desviación típica 1)

In [131]:
data = np.random.randn(2,3) # los parámetros indican el shape del array devuelto

In [132]:
data

array([[ 1.25028126,  0.06482514, -0.19884531],
       [ 0.94783417,  0.34872029,  0.95798279]])

In [133]:
np.mean(data)

0.5617997214998957

In [134]:
data2 = np.random.randn(100, 100)

In [135]:
np.mean(data2)

0.0010733171302022243

la media se aproxima más a 0 porque la muestra tiene mayor tamaño

### Comparación de tiempos

In [136]:
%time for i in range(100): np.arange(1_000_000)

CPU times: user 73.9 ms, sys: 5.78 ms, total: 79.6 ms
Wall time: 80.7 ms


In [137]:
%time for i in range(100): list(range(1_000_000))

CPU times: user 3.79 s, sys: 1.4 s, total: 5.2 s
Wall time: 5.46 s


## Añadir elementos

In [138]:
a = np.array( [1, 2, 3] )

In [139]:
b = np.append(a, [4, 5, 6])

In [140]:
b

array([1, 2, 3, 4, 5, 6])

- A diferencia de las listas python, el operador `+` no puede ser utilizado para concatenar arrays.
- En un array 2-dimensional, el valor `axis=0` significa extender en vertical, `axis=1` significa extender en horizontal.
- `np.append` proporciona una vista/view, no modifica el objeto sobre el que se aplica, puedes guardar el resultado en una variable...

In [141]:
a = np.array( [[1,2],[3,4]] )

In [142]:
a

array([[1, 2],
       [3, 4]])

In [143]:
np.append(a,[[9,9]], axis=0)

array([[1, 2],
       [3, 4],
       [9, 9]])

In [144]:
np.append(a,[[9],[9]], axis=1) # observa que [[9],[9]] es vector vertical

array([[1, 2, 9],
       [3, 4, 9]])

In [145]:
a # np.append no ha modificado a

array([[1, 2],
       [3, 4]])

In [146]:
b = np.append(a,[[9,9]], axis=0)

In [147]:
b

array([[1, 2],
       [3, 4],
       [9, 9]])

## Borrado de elementos

In [148]:
a = np.array( [[1,2,3],[4,5,6]] )

In [149]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [150]:
np.delete(a, 0)

array([2, 3, 4, 5, 6])

observa que el resultado queda aplanado (*flatten*)

In [151]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [171]:
np.delete(a,0,axis=0) # borrar primera fila

array([2, 3])

In [172]:
np.delete(a,0,axis=1) # borrar primera columna

AxisError: axis 1 is out of bounds for array of dimension 1

In [None]:
np.delete(a,1,axis=1) # borrar segunda columna

array([[1, 3],
       [4, 6]])

## Operaciones básicas

Numpy permite realizar operaciones sobre arrays sin necesidad de bucles que recorran los elementos uno a uno. Esa técnica se llama vectorización.

In [None]:
# comparemos el uso de + en listas python y en arrays Numpy:
%time
a = [1,2,3]
b = [4,5,6]
a+b

CPU times: user 3 µs, sys: 1e+03 ns, total: 4 µs
Wall time: 5.96 µs


[1, 2, 3, 4, 5, 6]

In [None]:
%time
arr1 = np.array([1,2,3])
arr2 = np.array([4,5,6])
arr1+arr2

CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 7.15 µs


array([5, 7, 9])

Cuando la forma (shape) de los arrays es la misma, podemos realizar sumas, restas, multiplicaciones y divisiones:

In [None]:
print(arr1.ndim)
print(arr1.size)
print(arr1.shape)

1
3
(3,)


In [None]:
print(arr2.ndim)
print(arr2.size)
print(arr2.shape)

1
3
(3,)


In [None]:
print(arr1+arr2)
print(arr1-arr2)
print(arr1*arr2)
print(arr1/arr2)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


In [173]:
# comparemos multiplicar por un escalar una lista python vs array:
a = [1,2,3]
a*3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [174]:
b = np.array([1,2,3])
b*3

array([3, 6, 9])

### Repeat & tile

In [175]:
b

array([1, 2, 3])

In [176]:
np.repeat(b,3) # repite CADA ELEMENTO

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [177]:
np.tile(b,3) # repite EL ARRAY

array([1, 2, 3, 1, 2, 3, 1, 2, 3])

con `tile` podemos repetir en 2 dimensiones:

In [178]:
c = np.arange(9)
c

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [179]:
c = c.reshape(3,3)

In [180]:
c.shape

(3, 3)

In [181]:
c

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [182]:
np.tile(c,3)

array([[0, 1, 2, 0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5, 3, 4, 5],
       [6, 7, 8, 6, 7, 8, 6, 7, 8]])

In [183]:
np.repeat(c,3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7,
       7, 7, 8, 8, 8])

### Operador `**` con arrays

In [184]:
arr2

array([4, 5, 6])

In [185]:
arr2 ** 2

array([16, 25, 36])

### Comparaciones entre arrays

In [186]:
arr3 = np.array([10, 20, 30, 40])

In [187]:
arr3

array([10, 20, 30, 40])

In [188]:
arr3 > 10

array([False,  True,  True,  True])

### Funciones universales (ufunc)

Operan elemento a elemento en todo el array. Ver `help(np.ufunc)` para más detalles

In [189]:
x = np.array([0,1,2,3])

In [190]:
x**3

array([ 0,  1,  8, 27])

In [191]:
np.sqrt(x)

array([0.        , 1.        , 1.41421356, 1.73205081])

### Métodos estadísticos para arrays Numpy

In [175]:
x = np.arange(1,11)
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [192]:
x.sum()

6

In [193]:
x.mean()

1.5

In [194]:
dev = (x - x.mean())**2
dev.sum()

5.0

In [195]:
dev.sum()/dev.size

1.25

In [196]:
x.var()

1.25

La raíz cuadrada de la varianza es la desviación típica:

In [184]:
np.sqrt(x.var())

2.8722813232690143

In [185]:
x.std()

2.8722813232690143

In [186]:
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Suma acumulada:

In [187]:
x.cumsum()

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45, 55])

El método `reshape` permite utilizar -1 para que deduzca el valor:

In [189]:
x = np.arange(1,7)
x

array([1, 2, 3, 4, 5, 6])

In [190]:
x.reshape(2,3)

array([[1, 2, 3],
       [4, 5, 6]])

In [191]:
x.reshape(2,-1)

array([[1, 2, 3],
       [4, 5, 6]])

In [192]:
x.reshape(3,-1)

array([[1, 2],
       [3, 4],
       [5, 6]])

Las funciones estadísticas pueden aplicarse a filas y/o columnas:

In [194]:
x = x.reshape(2,3)
x

array([[1, 2, 3],
       [4, 5, 6]])

In [197]:
x.mean()

3.5

In [195]:
x.mean(axis=0)

array([2.5, 3.5, 4.5])

In [196]:
x.mean(axis=1)

array([2., 5.])

### Random numbers in Numpy

In [197]:
np.random.seed(123) # inicializar la semilla

In [198]:
np.random.randint(10) # genera un valor entero aleatorio entre 0 y 9

2

In [199]:
np.random.randint(1,11) # genera valor entero aleatorio entre 1 y 10

3

In [200]:
# este código termina por mostrar un 10:

while True:
    num = np.random.randint(1,11)
    print(num)
    if num == 10:
        break

7
2
4
10


¿qué pasaría en el ejemplo anterior si cambiamos `num == 10` por `num == 11`?

In [203]:
np.random.randint(1,11, size=(3,4))

array([[ 7,  2,  1,  2],
       [10,  1,  1, 10],
       [ 4,  5,  1,  1]])

In [210]:
a = np.random.randint(1,11, size=1000)

In [209]:
a.size

1000

In [208]:
a.shape

(1000,)

In [211]:
np.unique(a)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [207]:
np.median(a)

5.0

In [212]:
np.sum(a)

5495

In [213]:
np.round(np.var(a), 2)

8.06

In [211]:
np.round(np.mean(a), 2)

5.51

In [212]:
np.round(np.std(a), 2)

2.84

In [213]:
np.max(a)

10

In [214]:
np.min(a)

1

In [215]:
set(a)

{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

In [216]:
a = np.array([2, -3, 4, 5, 7, 0, 1, -1])
a

array([ 2, -3,  4,  5,  7,  0,  1, -1])

In [217]:
a.argmax() # devuelve índice del valor más alto

4

In [218]:
a.argmin() # devuelve índice del valor más bajo

1

In [217]:
a = np.array([2, -3, 4, 5, 7, 0, 7, -3]) # están repes
a

array([ 2, -3,  4,  5,  7,  0,  7, -3])

In [218]:
a.argmax()

4

In [219]:
a.argmin()

1

### Álgebra lineal

In [220]:
# creamos una matriz 2x2

A = np.array([0, 1, 2, 3]).reshape(2,2)
A

array([[0, 1],
       [2, 3]])

In [221]:
B = np.array([3, 2, 0, 1]).reshape(2,2)
B

array([[3, 2],
       [0, 1]])

In [223]:
# producto de matrices, hay 3 formas, una es:

A.dot(B)

array([[0, 1],
       [6, 7]])

In [224]:
np.dot(A,B)

array([[0, 1],
       [6, 7]])

In [225]:
A @ B

array([[0, 1],
       [6, 7]])

In [226]:
# transponer una matriz
np.transpose(A)

array([[0, 2],
       [1, 3]])

In [227]:
A.transpose()

array([[0, 2],
       [1, 3]])

In [228]:
A.T # otra forma de transponer:

array([[0, 2],
       [1, 3]])

In [235]:
# Atención

Atransposed1 = A.T
Atransposed2 = A.T
Atransposed1 is Atransposed2

False

In [236]:
# inversa

np.linalg.inv(A)

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

In [237]:
# determinante

np.linalg.det(A)

-2.0

# Unit 1.4 indexing and slicing

In [238]:
# Indexar un vector unidimensional es como indexar una lista python

a = np.array([0,1,2,3])
a[0]

0

In [239]:
b = np.array([[0,1,2,3],
              [4,5,6,7],
              [8,9,10,11]])
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [240]:
b[0]

array([0, 1, 2, 3])

In [241]:
b[0][1]

1

In [242]:
# a diferencia de las listas, podemos separar las dimensiones con comas
# es decir, pasarle una tupla como índice:
b[0,1]

1

In [243]:
t = (0,1)
type(t)

tuple

In [244]:
b[t]

1

In [239]:
# obviamente podemos modificar valores:
a1 = np.array([0, 10, 20, 30, 40, 50])
a1

array([ 0, 10, 20, 30, 40, 50])

In [240]:
a1[5]

50

In [241]:
a1[5] = 70

In [242]:
a1

array([ 0, 10, 20, 30, 40, 70])

In [243]:
# podemos acceder a múltiples elementos pasando una lista:
a1[[1,3,4]]

array([10, 30, 40])

In [245]:
posiciones = [1,3,4]
a1[posiciones]

array([10, 30, 40])

In [246]:
# acceder a un array bidimensional (matriz)
a2 = np.arange(10, 100, 10).reshape(3,3)
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [247]:
a2[0,2]

30

In [248]:
a2[2,2] = 95
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 95]])

In [249]:
a2[1]

array([40, 50, 60])

In [251]:
a2[2] = np.array([45, 55, 65])
a2

array([[10, 20, 30],
       [40, 50, 60],
       [45, 55, 65]])

In [253]:
# indexar múltiples elementos en una matriz
# array[ [lista de filas], [lista de columnas]]
a2[[0,2], [0,1]] # posiciones (0,0) y (2,1)

array([10, 55])

In [254]:
# seleccionar elementos especificando una condición
# realmente son 2 pasos, primero genera vector de booleanos
a = np.array([1,2,3,4,5,6])
a>3

array([False, False, False,  True,  True,  True])

In [255]:
a[a>3]

array([4, 5, 6])

In [256]:
# otro ejemplo:
a[a % 2 == 0]

array([2, 4, 6])

### Array slicing

In [257]:
b1 = np.array([0, 10, 20, 30, 40, 50])
b1

array([ 0, 10, 20, 30, 40, 50])

In [258]:
b1[1:4]

array([10, 20, 30])

In [259]:
b1[:3]

array([ 0, 10, 20])

In [260]:
b1[2:]

array([20, 30, 40, 50])

In [261]:
# veamos ahora el caso de un array 2-dimensional:

arr2d = np.arange(1,10).reshape(3,3)
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [262]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [263]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [264]:
# primeras 2 columnas de la segunda fila:

arr2d[1, :2]

array([4, 5])

In [265]:
# 3a columna de las 2 primeras filas:

arr2d[:2, 2]

array([3, 6])

In [266]:
# poniendo solamente : se accede al eje entero

arr2d[:, :1]

array([[1],
       [4],
       [7]])

> **Nota:** Recuerda que con *slicing* se comparten datos con el ndarray 

In [426]:
c = arr2d[:, :1]
c

array([[1],
       [4],
       [7]])

In [427]:
np.shares_memory(arr2d, c)

True

In [428]:
c[1] = 1000
c

array([[   1],
       [1000],
       [   7]])

In [429]:
arr2d

array([[   1,    2,    3],
       [1000,    5,    6],
       [   7,    8,    9]])

In [270]:
# Seleccionar con variables booleanas

names = np.array(['Bob', 'Joe', 'Tom', 'Bob', 'Tom', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Tom', 'Bob', 'Tom', 'Joe', 'Joe'], dtype='<U3')

In [271]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [272]:
names[names == 'Bob']

array(['Bob', 'Bob'], dtype='<U3')

In [274]:
prueba = np.array(['Hi','Hello','Hello','Hi'])
prueba

array(['Hi', 'Hello', 'Hello', 'Hi'], dtype='<U5')

In [275]:
prueba[prueba=='Hi']

array(['Hi', 'Hi'], dtype='<U5')

Veamos cómo crear un array de un tamaño/forma determinado sin inicializar los valores:

In [279]:
arr = np.empty((8,4))
arr

array([[4.67459643e-310, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000],
       [6.91600868e-310, 5.02034658e+175, 1.62003700e-051,
        5.10970098e-038],
       [1.32713353e-047, 1.42162367e+161, 3.34584545e-033,
        2.89828961e-057],
       [2.16385130e+190, 1.94918964e-153, 5.30581644e+180,
        4.32453723e-096],
       [2.14027814e+161, 4.96212149e+180, 1.04917595e-153,
        9.08366793e+223],
       [1.62003700e-051, 5.10970098e-038, 1.32713353e-047,
        1.42162367e+161],
       [1.04917753e-153, 1.94918966e-153, 4.75386444e-038,
        9.72100734e-067],
       [6.82358464e-038, 2.59027896e-144, 7.79952704e-143,
        5.81186265e+294]])

In [281]:
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [282]:
# seleccionarmos filas en un orden específico incluso repitiendo:

arr[[4,3,0,3,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [3., 3., 3., 3.],
       [6., 6., 6., 6.]])

In [283]:
# podemos utilizar índices negativos para seleccionar desde el final:

arr[[-3, -5]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.]])

In [284]:
# ejemplo: indexar múltiplos de 5

arr2 = np.arange(20)
arr2

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [285]:
arrMask = (arr2 % 5 == 0)
arrMask

array([ True, False, False, False, False,  True, False, False, False,
       False,  True, False, False, False, False,  True, False, False,
       False, False])

In [286]:
arr2[arrMask]

array([ 0,  5, 10, 15])

In [287]:
arr2[arr2 % 5 == 0]

array([ 0,  5, 10, 15])

In [289]:
# Cómo combinar condiciones:
# importante utilizar | en lugar de or y & en lugar de and

arr2[(arr2 % 5 == 0) | (arr2 % 3 == 0)]

array([ 0,  3,  5,  6,  9, 10, 12, 15, 18])

# Unit 1.5 Array Transposition and Axis Swap

In [290]:
arr = np.arange(15).reshape(3,5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [291]:
arr.transpose()

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [292]:
# devuelve un nuevo array, el original no ha cambiado:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [293]:
arr.T # otra forma

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

Multiplicar dos matrices 2-dimensionales con `*` las multiplica elemento a elemento (no es el producto de matrices):

In [294]:
a = np.array([[1,2],[3,4]])
a

array([[1, 2],
       [3, 4]])

In [295]:
b = np.array([[5,6],[7,8]])
b

array([[5, 6],
       [7, 8]])

In [296]:
a*b

array([[ 5, 12],
       [21, 32]])

El producto de matrices se consigue con `np.dot`

In [298]:
np.dot(a,b)

array([[19, 22],
       [43, 50]])

In [299]:
a @ b

array([[19, 22],
       [43, 50]])

`np.dot` puede ser utilizado para calcular el producto interno (o escalar)
ver el siguiente enlace [enlace wikipedia](https://es.wikipedia.org/wiki/Producto_escalar)

In [300]:
np.dot(a.T, b)

array([[26, 30],
       [38, 44]])

veamos otros ejemplos de transposición para que quede claro cómo funciona:

In [301]:
arr_1 = np.arange(12).reshape(3,4)
arr_1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [302]:
arr_1.reshape(4,3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [303]:
arr_1.transpose((0,1))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [304]:
arr_1.transpose((1,0))

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

probemos con un array de 3 dimensiones:

In [306]:
arr = np.arange(16).reshape(2,2,4)
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [307]:
arr.transpose(1,0,2)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [308]:
arr.transpose(0,1,2)

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [309]:
arr.transpose(2,1,0)

array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

In [310]:
arr.T

array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

Existe un método en `ndarray` llamado `swapaxes` que recibe dos índices de ejes:

In [311]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [312]:
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

In [313]:
arr.swapaxes(0,1)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [314]:
arr.swapaxes(1,0)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])