# Notas de curso manejo de datos con NumPy y Pandas

## NumPy

* Se instala con el comando pip install numpy
* Se importa con el comando import numpy as np


### Array de numpy

* Es la estructura central de NumPy
* Representa datos de una manera estructurada
* Indexado que facilita la consulta de datos
* Facilita el acceso a uno o muchos elementos


In [11]:
# importar numpy
import numpy as np


In [12]:
# crear una lista corriente de python
lista = [1,2,3,4,5,6,7,8,9]
lista


[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [13]:
# llevar la lista a un array de python
arr = np.array(lista)


In [14]:
# se crea una matriz con listas de python
matriz = [[1, 2, 3],[4, 5, 6],[7, 8, 9]]

# se convierte la matriz en array
matriz = np.array(matriz)
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Indexing
Se usa para acceder a una posición específica del array

In [15]:
# los indexados se manejan con posiciones en el array y empiezan desde cero

arr[0] # devuelve la primera posicion del array

1

In [16]:
# cuando son array que vienen de matrices [0] devuelve la primera fila
matriz[0]


array([1, 2, 3])

In [17]:
# para acceder a un valor especifico fila, columna se pone [fila, columna]
matriz[0,2] # devuelve de la primera fila, el tercer elemento

3

#### Slicing
Se usa para acceder a varios valores de un array al tiempo

In [19]:
# selecciona desde la posicion inicio hasta fin menos uno [inicio:fin], así [0,3] devuelve desde la posicion cero hasta la posicion 2
arr[0:3]

array([1, 2, 3])

In [20]:
# Si no se indica un valor de inicio, devuleve desde la posicion cero 
arr[:5]

array([1, 2, 3, 4, 5])

In [21]:
# Si no se indica un valor de fin, devuleve desde la posicion inicio hasta la ultima posicion
arr[2:]

array([3, 4, 5, 6, 7, 8, 9])

In [22]:
# Si no se indica inicio ni fin devuelve todo
arr[:]

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
# Tambien se puede usar slicing en matrices [inicio:fin, inicio:fin] a la izquierda de la coma son las filas y a la derecha de la coma son las columnas
matriz[1:,0:2]

array([[4, 5],
       [7, 8]])

### Tipos de datos en NumPy
Se usa la propiedad dtype de los objetos array, también se puede usar el método astype(np.tipo_dato), todo el array queda con el mismo tipo de dato, no se pueden mezclar número y texto

In [24]:
# se crea un array
arr = np.array([1, 2, 3, 4])
arr

array([1, 2, 3, 4])

In [25]:
# dtype devuleve el tipo de dato que esta almacenado
arr.dtype

dtype('int64')

In [26]:
# Se puede definir el dtype al crear el array
arr = np.array([1, 2, 3, 4], dtype='float64')
arr.dtype

dtype('float64')

In [28]:
# tambien se puede definir el tipo con el metodo astype
arr2 = np.array([1, 2, 3, 4])
arr2 = arr2.astype(np.float64)
arr2.dtype

dtype('float64')

### Dimensiones en NumPy
Se accede al número de dimensiones con la propiedad ndim de los array
* Escalar, cuando es solo un valor o dimensión 0
* Vector, cuando es una fila o una columna dimmensión 1
* Matriz, cuando es fila y columna hasta la dimensión 3
* Tensor, cuando tiene dimensión n,n

In [34]:
# definir un escalar
escalar = np.array(42)
print(escalar)
print('dimensión: '+ str(escalar.ndim))

42
dimensión: 0


In [35]:
# definir un vector
vector = np.array([1,2,3])
print(vector)
print('dimensión: '+ str(vector.ndim))

[1 2 3]
dimensión: 1


In [36]:
# definir una matriz
matriz2 = np.array([[1,2,3],[4,5,6]])
print(matriz2)
print('dimensión: '+ str(matriz2.ndim))

[[1 2 3]
 [4 5 6]]
dimensión: 2


In [38]:
# definir un tensor
tensor = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
print(tensor)
print('dimensión: '+ str(tensor.ndim))

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
dimensión: 3


#### Agregar o quitar dimensiones
Se pueden definir el número de dimensiones desde el inicio o agregar a un objeto que ya existe

In [42]:
# en este ejemplo se esta definiendo un tensor de tres dimensiones
tensor_3d = np.array([1,2,3], ndmin=3)
print(tensor_3d)
print('dimensión: '+ str(tensor_3d.ndim))

[[[1 2 3]]]
dimensión: 3


In [43]:
# en este ejemplo se expande la dimension de un vector ya creado
matriz_2d = np.expand_dims(vector, axis=0) #axis 0 es fila, axis 1 es columna
print(matriz_2d)
print('dimensión: '+ str(matriz_2d.ndim))

[[1 2 3]]
dimensión: 2


Con la funcion np.squeeze() se dejan los datos con el número de dimensiones que se están usando

In [44]:
# vamos a quitarle la dimension que tiene de mas matriz_2d
print(matriz_2d, matriz_2d.ndim)
vector_1d = np.squeeze(matriz_2d)
print(vector_1d, vector_1d.ndim)

[[1 2 3]] 2
[1 2 3] 1
