# Numpy

El **Array** de Numpy es el **principal objeto** de la librería.
Representa datos de forma estructurada y se puede acceder a ellos a través del indexado, ya sea a un dato específico o a un grupo de muchos datos.

Es hasta **50 veces más rápido** que una lista de Python y ocupa menos memoria.

## Básicos

In [2]:
import numpy as np

In [3]:
lista = [1, 2 , 3, 4, 5, 6, 7, 8, 9]
lista

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Volvemos nuestra lista un **array**

In [4]:
array = np.array(lista)
type(array)

numpy.ndarray

Podemos crear **matrices**

In [5]:
matriz = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## Indexing

El indexado nos permite acceder a los elementos de los array a través del índice.

In [6]:
# Accediendo a la posición 0
array[0]

1

Es posible hacer **operaciones** con los valores que nos regresa el indexado.

In [7]:
array[0] + array[5]

7

Para el caso de las matrices utilizar el índice nos regresa el array de dicha posición.

In [8]:
matriz[0]

array([1, 2, 3])

Para seleccionar un solo elemento es necesario utilizar la **posición** del elemento después del índice (esta posición también comienza desde 0).

In [9]:
# [Fila, Columna]
matriz[0, 2]

3

## Slicing

El slicing nos permite extraer varios valores.

In [10]:
array[1:6]

array([2, 3, 4, 5, 6])

Si no se da un valor de incio entonces se toma como la posición inicial.

In [11]:
array[:2]

array([1, 2])

Si no se da un valor de fin entonces se toma como la posición final.

In [12]:
array[2:]

array([3, 4, 5, 6, 7, 8, 9])

También es posible especificar el salto entre las posiciones.

In [13]:
array[::2]

array([1, 3, 5, 7, 9])

Utilizando valores negativos se regresan los valores comenzando desde la última posición del array, es decir, -1 es el último valor.

In [14]:
array[-3:]

array([7, 8, 9])

Para las matrices sucede algo similar para acceder a las filas.

In [15]:
matriz[1:]

array([[4, 5, 6],
       [7, 8, 9]])

Y para acceder a filas y columnas.

In [16]:
matriz[1:, :2]

array([[4, 5],
       [7, 8]])

## Tipos de datos

Los **arrays** de Numpy solo pueden contener **un tipo de dato** ya que esto es lo que le confiere tantas ventajas de optimización de memoria.

Podemos conocer el tipo de datos del array utilizando el atributo *.dtype*

In [17]:
array = np.array([1, 2, 3, 4])
array.dtype

dtype('int32')

Si queremos usar otro tipo de datos lo podemos especificar en la definición del array.

In [18]:
array = np.array([1, 2, 3, 4], dtype = "float64")
array.dtype

dtype('float64')

In [19]:
array

array([1., 2., 3., 4.])

Si ya tenemos un array definido entonces podemos cambiar su tipo de dato con el método *.astype()*

In [20]:
array = np.array([1, 2, 3, 4])
array = array.astype(np.float64)
array

array([1., 2., 3., 4.])

También podemos cambiar el tipo de dato a **booleano** recordando que los números diferentes a 0 se convierten en True.

In [21]:
array = np.array([0, 1, 2, 3, 4])
array = array.astype(np.bool_)
array

array([False,  True,  True,  True,  True])

También se pueden convertir a tipo **string**.

In [22]:
array = np.array([0, 1, 2, 3, 4])
array = array.astype(np.string_)
array

array([b'0', b'1', b'2', b'3', b'4'], dtype='|S11')

Y de igual forma podemos convertir de string a números.

In [23]:
array = np.array(["0", "1", "2", "3", "4"])
array = array.astype(np.int8)
array

array([0, 1, 2, 3, 4], dtype=int8)

Pero si un elemento no es un número entonces el texto fallará.

In [24]:
array = np.array(["hola", "1", "2", "3", "4"])
array = array.astype(np.int8)
array

ValueError: invalid literal for int() with base 10: 'hola'

## Dimensiones

- Escalar: dimensión = 0. Un solo dato o valor.
- Vector: dimensión = 1. Listas de Python.
- Matriz: dimensión = 2. Hojas de cálculo.
- Tensor: dimensión > 3. Series de tiempo o imágenes.

Utilizando el atributo *.ndim* podemos saber la dimensión.

Declarando un **escalar**.

In [None]:
escalar = np.array(42)
escalar

array(42)

In [None]:
escalar.ndim

0

Declarando un **vector**.

In [None]:
vector = np.array([1, 2, 3, 4])
vector

array([1, 2, 3, 4])

In [None]:
vector.ndim

1

Declarando una **matriz**.

In [None]:
matriz = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
matriz.ndim

2

Declarando un **tensor**.

In [None]:
tensor = np.array([
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
    ],
    [
        [10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]
    ],
    [
        [19, 20, 21],
        [22, 23, 24],
        [25, 26, 27]
    ]
])
tensor

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]],

       [[19, 20, 21],
        [22, 23, 24],
        [25, 26, 27]]])

In [None]:
tensor.ndim

3

La dimensión está ligada a la cantidad de corchetes [ ].

Es posible definir el número de dimensiones del array desde su definición con *ndmin*.

In [None]:
vector = np.array([1, 2, 3, 4], ndmin = 10)
vector

array([[[[[[[[[[1, 2, 3, 4]]]]]]]]]])

In [None]:
vector.ndim

10

Se pueden expandir dimensiones a los array ya existentes.

Axis = 0 hace refencia a las filas, mientras que axis = 1 a las columnas.

In [None]:
# Estoy expandiendo una dimensión a nivel de filas
expandido = np.expand_dims(np.array([1, 2, 3]), axis = 0)
expandido

array([[1, 2, 3]])

In [None]:
expandido.ndim

2

También es posible remover o comprimir las dimensiones que no están siendo usadas.

In [None]:
vector2 = np.squeeze(vector)
vector2

array([1, 2, 3, 4])

In [None]:
vector2.ndim

1

## Creando Arrays

Con *np.arange()* podemos generar arrays sin necesidad de definir previamente una lista. Es parecido al método *range()* de Python.

In [None]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Se puede especificar el tamaño de paso.

In [None]:
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

Con *np.zeros()* podemos definir estructuras o esquemas llenas de ceros. Por defecto su tipo de dato es float.

In [None]:
np.zeros(3)

array([0., 0., 0.])

In [None]:
np.zeros((10, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

Con *np.ones()* es muy similar a np.zeros() ya que en este caso nos crea estructuras llenas de unos.

In [None]:
np.ones((2, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

*np.linspace()* nos permite generar un array definiendo un inicio, un final y cuántas divisiones tendrá; automáticamente se hacen los cálculos para que los intervalos sean iguales.

In [None]:
np.linspace(0, 10, 12)

array([ 0.        ,  0.90909091,  1.81818182,  2.72727273,  3.63636364,
        4.54545455,  5.45454545,  6.36363636,  7.27272727,  8.18181818,
        9.09090909, 10.        ])

Con *np.eye()* podemos crear una matriz identidad del tamaño que especifiquemos.

In [None]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Numpy tiene un método que nos permite generar números aleatorios.

In [None]:
np.random.rand()

0.2814548456549739

También nos permite generar vectores.

In [None]:
np.random.rand(4)

array([0.74900425, 0.97610806, 0.53234342, 0.45126717])

Y también matrices.

In [None]:
np.random.rand(4,4)

array([[0.05913685, 0.59554869, 0.31126795, 0.73945205],
       [0.00390925, 0.56089019, 0.80355955, 0.36846322],
       [0.49267855, 0.40547862, 0.96363491, 0.78236577],
       [0.01962996, 0.40683082, 0.61222477, 0.01495092]])

También hay una función que nos permite generar números enteros entre dos valores que especifiquemos.

In [None]:
np.random.randint(1, 15)

6

Y estos números enteros aleatorios podemos llevarlos a vectores, matrices, etc.

In [None]:
np.random.randint(1, 15, (3, 3))

array([[ 2, 12, 10],
       [ 1,  2,  7],
       [12,  7, 14]])

## Shape y Reshape

Shape me indica la forma del array, con qué estructura estoy trabajando.

Reshape transforma el array mientras se mantengan los elementos.

In [None]:
array = np.random.randint(1, 10, (3, 2))
array.shape

(3, 2)

In [None]:
array

array([[2, 5],
       [4, 9],
       [5, 3]])

Voy a transformarlo en un array de 1 x 6. Esto puedo hacerlo ya que el número de elementos que tiene el array permite hacer este cambio.

In [None]:
array.reshape(1, 6)

array([[2, 5, 4, 9, 5, 3]])

In [None]:
array.reshape(2, 3)

array([[2, 5, 4],
       [9, 5, 3]])

Se puede hacer un reshape como lo haría C.

In [None]:
np.reshape(array, (2, 3), "C")

array([[2, 5, 4],
       [9, 5, 3]])

Y también como lo haría Fortran.

In [None]:
np.reshape(array, (2, 3), "F")

array([[2, 5, 9],
       [4, 5, 3]])

Existe la opción de hacer reshape según como esté optimizado en nuestro computador.

In [None]:
np.reshape(array, (2, 3), "A")

array([[2, 5, 4],
       [9, 5, 3]])

##  Funciones principales de Numpy

In [25]:
array = np.random.randint(1, 20, 10)
matriz = array.reshape(2,5)
matriz

array([[ 4, 14, 18,  9, 12],
       [11,  6, 16, 16,  1]])

Podemos obtener el valor mínimo y el valor máximo.

In [26]:
array.max()

18

In [27]:
matriz.max()

18

Podemos regresar los máximos de una columna o fila específica.

In [28]:
matriz.max(1)

array([18, 16])

In [29]:
matriz.max(0)

array([11, 14, 18, 16, 12])

In [30]:
matriz.min(0)

array([ 4,  6, 16,  9,  1])

In [31]:
matriz.min(1)

array([4, 1])

Con *.argmax()* y *.argmin()* obtenemos el **índice** del valor más grande y más pequeño respectivamente.

In [32]:
array.argmax()

2

In [33]:
matriz.argmax()

2

In [34]:
matriz.argmin(0)

array([0, 1, 1, 0, 1], dtype=int64)

In [35]:
matriz.argmin(1)

array([0, 4], dtype=int64)

Con *.ptp()* podemos saber la diferencia de el valor más grande y el valor más pequeño.

In [36]:
array.ptp()

17

Podemos ordenar los elementos con *.sort()*.

In [39]:
np.sort(array)
array.sort()
array

array([ 1,  4,  6,  9, 11, 12, 14, 16, 16, 18])

Una vez tenemos los elementos ordenados entonces podemos obtener un percentil con *.percentile*.

In [40]:
np.percentile(array, 10)

3.7

También podemos obtener la mediana.

In [41]:
np.median(array)

11.5

La desviación estándar.

In [42]:
np.std(array)

5.348831648126533

La varianza.

In [43]:
np.var(array)

28.610000000000003

El promedio.

In [44]:
np.mean(array)

10.7

Todo esto aplica también para matrices.

In [45]:
np.median(matriz, 1)

array([ 6., 16.])

También podemos unir dos arrays por media de concatenación

In [46]:
a = np.array([[1,2], [3,4]])
b= np.array([5, 6])
np.concatenate((a,b), axis = 0)

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

El error es porque **a** tiene 2 dimensiones y **b** tiene 1 dimensión.

Podemos solucionar el error de la siguiente forma.

In [47]:
b = np.expand_dims(b, axis = 0)
b

array([[5, 6]])

In [48]:
np.concatenate((a, b), axis = 0)

array([[1, 2],
       [3, 4],
       [5, 6]])

De igual forma podemos agregarlo en el otro eje.

In [49]:
np.concatenate((a,b), axis = 1)

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 2 and the array at index 1 has size 1

Como b es una fila y no una columna, no se puede concatenar a menos que se aplique la transpuesta.

In [50]:
np.concatenate((a,b.T), axis = 1)

array([[1, 2, 5],
       [3, 4, 6]])

## Copy

*.copy()* nos permite copiar un array de Numpy en otra variable de tal forma que al modificar el nuevo array los cambios no se vean reflejados en el original.

In [52]:
array = np.arange(0, 11)
array

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [54]:
trozoArray = array[0:6]
trozoArray

array([0, 1, 2, 3, 4, 5])

Quiero hacerle una modificación a mi nuevo array.

In [56]:
trozoArray[:] = 0
trozoArray

array([0, 0, 0, 0, 0, 0])

Pero como vemos, acabamos de cambiar los datos del array original porque trozoArray seguía apuntando al array original.

In [57]:
array

array([ 0,  0,  0,  0,  0,  0,  6,  7,  8,  9, 10])

Utilizando *.copy* creamos una copia del array y realizamos los cambios que necesitemos.

In [59]:
copiaArray = array.copy()
copiaArray[:] = 100
copiaArray

array([100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100])

In [60]:
array

array([ 0,  0,  0,  0,  0,  0,  6,  7,  8,  9, 10])

De esta manera, se conserva nuestro array original.

## Condiciones

Las condiciones nos permiten hacer consultas más específicas.

In [62]:
array = np.linspace(1,10,10, dtype = 'int8')
array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int8)

Regresa un array de booleanos donde la condiciones se cumple.

In [63]:
condicion = array > 5
condicion

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

Utilizando este nuevo array como índice podemos obtener los valores que cumplen dicha condición.

In [64]:
array[condicion]

array([ 6,  7,  8,  9, 10], dtype=int8)

Podemos agregar múltiples condiciones.

In [65]:
array[(array > 5) & (array < 9)]

array([6, 7, 8], dtype=int8)

De igual forma podemos modificar los valores que cumplen la condición.

In [67]:
array[condicion] = 99
array

array([ 1,  2,  3,  4,  5, 99, 99, 99, 99, 99], dtype=int8)

Es importante notar que la **condición nos devuelve una lista booleana** y utilizando esa lista como **índice obtenemos los elementos** que cumplen dicha condición.

## Operaciones

Existen diferentes operaciones que se pueden usar para los arrays de NumPy.

In [74]:
array = np.arange(0, 10)
array2 = np.copy(array)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Podemos multiplicar un array por un escalar.

In [70]:
array * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

Sumar un escalar.

In [71]:
array + 2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

Dividir por un escalar.

In [72]:
array / 2

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

Elevar a un escalar.

In [73]:
array ** 2

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

Sumar dos arrays de igual dimensiones; esta suma se hace elemento por elemento.

In [75]:
array + array2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

Lo mismo aplica para matrices.

In [76]:
matriz = array.reshape(2,5)
matriz2 = matriz.copy()
matriz

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [77]:
matriz - matriz2

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

Incluso tenemos el producto punto.

In [78]:
np.matmul(matriz, matriz2.T)

array([[ 30,  80],
       [ 80, 255]])

También podemos hacer el producto punto de esta manera.

In [79]:
matriz @ matriz2.T

array([[ 30,  80],
       [ 80, 255]])