## Numpy Array

El array es el principal objeto de la librería. Representa datos de manera estructurada y se puede acceder a ellos a través del indexado, a un dato específico o un grupo de muchos datos específicos.

Se pueden tener hasta millones de objetos en un *array*. Por lo general se empieza definiendo una lista previa de Python; veamos:

In [2]:
import numpy as np

my_list = [1,2,3]
my_array = np.array(my_list)

O simplemente:

In [3]:
my_array = np.array([1,2,3])

Veamos un ejemplo con *list comprehensions*, de todos los multiplos de 5 del 0 al 30 incrementados en 1 

In [8]:
my_list = [i+1 for i in range(30) if i%5 != 0 ]
my_array = np.array(my_list)
print(my_array)
print('tipo de dato', type(my_array))

[ 2  3  4  5  7  8  9 10 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30]
tipo de dato <class 'numpy.ndarray'>


Obsevamos que el tipo de dato es un objeto de numpy de tipo ndarray del cual hemos hablado

### Creando objetos de Multiples Dimensiones

El objeto anterior es de una sola dimension, pero tambien podemos tener objetos de multiples dimensiones. Para el siguiente caso, le enviamos la primera lista con los numeros del 1 al 5, la segunga con los numeros del 6 al 10, y en la tercer del 11 al 15

In [11]:
matriz = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]]
print('tipo de dato =', type(matriz))

tipo de dato = <class 'list'>


Ahora vamos a convertirla a tipo *array* de numpy

In [12]:
matriz = np.array(matriz)
print('tipo de dato =', type(matriz))

tipo de dato = <class 'numpy.ndarray'>


### Indexado

El indexado nos permite acceder a los elementos de los array y matrices. Los elementos se empiezan a contar desde 0.

Por ejemplo, accedamos al primer y ultimo elemento del array, y hagamos una sencilla operacion entre los mismos

In [17]:
print('primer elemento', my_array[0])
print('ultimo elemento', my_array[-1])
print('primero + ultimo', my_array[0]+my_array[-1])

primer elemento 2
ultimo elemento 30
primero + ultimo 32


#### ¿Y con las matrices?

In [18]:
print(matriz[0])

[1 2 3 4 5]


La razon por la que obtengo 5 valores, es porque el nivel 0, me va a ingresar a la primera posicion a nivel de filas. Si quiero indexar a nivel mas especifico, el ultimo elemento de la primera columna

In [31]:
print(matriz[0,4])

5


#### Slicing

Muy parecido al Slicing de Strings tal y como lo conocemos en Python. Donde el primer elemento es el comienzo y el final

In [23]:
print(my_array)
print('Del primer al quinto elemento del arreglo')
print(my_array[1:5])

[ 2  3  4  5  7  8  9 10 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30]
Del primer al quinto elemento del arreglo
[3 4 5 7]


#### ¿Y que pasa si no se ingresa uno de los valores?

Para el primer caso borremos el 1, y para el segundo borremos el 5

In [24]:
print('Primer Caso')
print(my_array[:5])
print('')
print('Segundo Caso')
print(my_array[1:])

Primer Caso
[2 3 4 5 7]

Segundo Caso
[ 3  4  5  7  8  9 10 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30]


En el primero indexa todos los elementos hasta el indice 5, y en el segundo desde, el elemento 1 hasta el final

#### ¿Y que pasaria si lo quisiera todos los elementos pero de tres en tres?

In [25]:
print(my_array[::3])

[ 2  5  9 13 17 20 24 28]


#### ¿Y si quisiera el ultimo elemento, y despues los ultimos 5 elementos?

In [27]:
print('ultimo elemento:', my_array[-1]) 
print('ultimo cinco elementos:', my_array[-5:]) 

ultimo elemento: 30
ultimo cinco elementos: [25 27 28 29 30]


#### ¿Tambien se podria con matrices aplicar el Slicing?

Por supuesto, supongamos que queremos indexar las dos primeras filas de la matriz

In [29]:
print(matriz)
print('')
print(matriz[:2])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


Ahora las dos ultimas filas, y las primeras tres columnas

In [32]:
print(matriz[-2:, :3])

[[ 6  7  8]
 [11 12 13]]


## Tipos de Datos

Los arrays de NumPy solo pueden contener un tipo de dato, ya que esto es lo que le confiere las ventajas de la optimización de memoria.

Podemos conocer el tipo de datos del array consultando la propiedad *.dtype*

In [36]:
import numpy as np

my_array = np.array([i for i in range(10)])
print(my_array.dtype)

int64


Si queremos usar otro tipo de dato, lo podemos definir en la declaración del array.

In [37]:
my_array = np.array([1,2,3,4], dtype='float64')
print(my_array.dtype)

float64


Ahora vemos que los valores están con punto decimal.

In [38]:
print(my_array)

[1. 2. 3. 4.]


¿Puedo cambiar el tipo de dato de un arreglo si ya esta definido?

Claro, con el metodo *.astype()*

In [40]:
my_array = np.array([i for i in range(10)])
my_array = my_array.astype(np.float64)
print(my_array.dtype)

float64


También se puede cambiar a tipo booleano recordando que los números diferentes de 0 se convierten en True.

In [42]:
my_array = np.array([i for i in range(10)])
my_array = my_array.astype(np.bool_)
print(my_array.dtype)
print(my_array)

bool
[False  True  True  True  True  True  True  True  True  True]


También podemos convertir los datos en tipo string.

In [43]:
my_array = np.array([i for i in range(10)])
my_array = my_array.astype(np.string_)
print(my_array.dtype)
print(my_array)

|S21
[b'0' b'1' b'2' b'3' b'4' b'5' b'6' b'7' b'8' b'9']


De igual manera, se puede pasar de string a número.

In [47]:
my_array = list('343243')
print(my_array)

my_array = np.array(my_array)
print(my_array.dtype)

my_array = my_array.astype(np.int8)
print(my_array)

['3', '4', '3', '2', '4', '3']
<U1
[3 4 3 2 4 3]


#### Conclusion

El array de Numpy únicamente puede tener un único tipo de datos en el cual va a trabajar. No puedo tener la mitad del array en int y la otra mitad en bool.


#### Lecturas Recomendadas

https://numpy.org/doc/stable/user/basics.types.html

## Dimensiones

Dentro del mundo de la ciencia de datos se pueden tener multiples dimensiones. En las secciones anteriores habias trabajado arreglos de numpy de dimension 1 y 2, pero ahora profundizaremso en estos conceptos.

![dim](./images/dim.JPG)


### Un Escalar

Un simple valor numerico. Usamos *ndim* para validad el numero de dimensiones, y lo haremos con todos los ejemplos

In [5]:
scalar = np.array(25)
print(scalar)
print(f'el escalar tiene {scalar.ndim} dimensiones')

25
el escalar tiene 0 dimensiones


### Un Vector

Un arreglo de numeros. 

In [8]:
vector = np.array([i for i in range(15) if i%2 == 0])
print(vector)
print(f'el vector tiene {vector.ndim} dimension')

[ 0  2  4  6  8 10 12 14]
el vector tiene 1 dimension



### Una matriz 2D

Dos dimensiones. Aqui en realidad lo que quiere decir el instructor con *Ejemplos* son las *filas(observaciones individulales)* 

![](./images/matriz.JPG)

Aqui el ejemplo es una hoja de calculo con filas y columnas


In [9]:
matriz = np.array([[1,1,2],[3,5,8],[13,21,34]])
print(matriz)
print(f'la matriz tiene {matriz.ndim} dimensiones')

[[ 1  1  2]
 [ 3  5  8]
 [13 21 34]]
la matriz tiene 2 dimensiones



### Tensor 3D

![](./images/3dim.JPG)

Para este caso, se tienen diferentes filas u obsevaciones, y una nueva dimension que es el tiempo, como cambian durante el tiempo.

Se me ocurre como estudiante, cuando tenemos un Excel con las caracteristicas de una serie de productos , y diferentes hojas de calculo por cada mes u año.

Los objetos se van volviendo mas y mas complejos

In [11]:
tensor = np.array([[[1,1,2],[3,5,8],[13,21,34]]])
print(tensor)
print(f'el tensor tiene {matriz.ndim} dimensiones')

[[[ 1  1  2]
  [ 3  5  8]
  [13 21 34]]]
el tensor tiene 3 dimensiones


In [14]:
tensor = np.array([[[1,1,2],[3,5,8],[13,21,34]], [[1,1,2],[3,5,8],[13,21,34]]])
print(tensor)
print('')
print(f'el nuevo tensor tiene {matriz.ndim} dimensiones')

[[[ 1  1  2]
  [ 3  5  8]
  [13 21 34]]

 [[ 1  1  2]
  [ 3  5  8]
  [13 21 34]]]

el nuevo tensor tiene 3 dimensiones



### Tensodr 4D

En este caso ademas de todo lo anterior, hay una nueva dimension que representa el color, en el caso que estemos manejando imagenes.

![](./images/4Dtensor.JPG)


### Agregar o eliminar dimensiones



In [15]:
vector = np.array([1,1,2,3,5], ndmin=5)
print(vector)

[[[[[1 1 2 3 5]]]]]


Si por el contrario, queremos eliminar las dimensiones que no estamos utilizando, usamos el metodo *squeeze*

In [18]:
vector = np.squeeze(vector)
print(vector)
print(vector.ndim)

[1 1 2 3 5]
1


Si queremos expandir una unica dimension en sus ejes. Para ello usamos un metodo llamado *expand_dims*. Para el siguiente caso, se expandira una dimension en el *axis=0*. Esto quiere decir que se expandira una dimension a nivel de filas.

Recordemos que para numpy y python el 0 es filas y el 1 es columnas

In [17]:
expand = np.expand_dims(np.array([1,1,2,3,5]), axis=0)
print(expand)
print(expand.ndim)

[[1 1 2 3 5]]
2


### Reto
Definir un tensor de 5D. Sumarle una dimensión en cualquier eje. Borrar las dimensiones que no se usen

In [25]:
vector = [i**2 for i in range(12) if i%2 != 0]
tensor = np.array(vector, ndmin=5)
print(tensor)
print('')
tensor = np.expand_dims(tensor, axis=1)
print(tensor)
print('')
tensor = np.squeeze(tensor)
print(tensor)


[[[[[  1   9  25  49  81 121]]]]]

[[[[[[  1   9  25  49  81 121]]]]]]

[  1   9  25  49  81 121]



### Resumen 

- scalar: dim = 0 Un solo dato o valor

- vector: dim = 1 Listas de Python

- matriz: dim = 2 Hoja de cálculo

- tensor: dim > 3 Series de tiempo o Imágenes


Supongamos creamos un arreglo unidimensional con los numeros del 20 al 35

In [3]:
my_array = np.arange(20,36)
my_array[-1]

35