# Notas de curso manejo de datos con NumPy y Pandas

## NumPy

* Se instala con el comando pip install numpy
* Se importa con el comando import numpy as np


### Array de numpy

* Es la estructura central de NumPy
* Representa datos de una manera estructurada
* Indexado que facilita la consulta de datos
* Facilita el acceso a uno o muchos elementos


In [11]:
# importar numpy
import numpy as np


In [12]:
# crear una lista corriente de python
lista = [1,2,3,4,5,6,7,8,9]
lista


[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [13]:
# llevar la lista a un array de python
arr = np.array(lista)


In [14]:
# se crea una matriz con listas de python
matriz = [[1, 2, 3],[4, 5, 6],[7, 8, 9]]

# se convierte la matriz en array
matriz = np.array(matriz)
matriz


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Indexing
Se usa para acceder a una posición específica del array

In [15]:
# los indexados se manejan con posiciones en el array y empiezan desde cero

arr[0] # devuelve la primera posicion del array


1

In [16]:
# cuando son array que vienen de matrices [0] devuelve la primera fila
matriz[0]


array([1, 2, 3])

In [17]:
# para acceder a un valor especifico fila, columna se pone [fila, columna]
matriz[0,2] # devuelve de la primera fila, el tercer elemento


3

#### Slicing
Se usa para acceder a varios valores de un array al tiempo

In [19]:
# selecciona desde la posicion inicio hasta fin menos uno [inicio:fin], así [0,3] devuelve desde la posicion cero hasta la posicion 2
arr[0:3]


array([1, 2, 3])

In [20]:
# Si no se indica un valor de inicio, devuleve desde la posicion cero 
arr[:5]


array([1, 2, 3, 4, 5])

In [21]:
# Si no se indica un valor de fin, devuleve desde la posicion inicio hasta la ultima posicion
arr[2:]


array([3, 4, 5, 6, 7, 8, 9])

In [22]:
# Si no se indica inicio ni fin devuelve todo
arr[:]


array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
# Tambien se puede usar slicing en matrices [inicio:fin, inicio:fin] a la izquierda de la coma son las filas y a la derecha de la coma son las columnas
matriz[1:,0:2]


array([[4, 5],
       [7, 8]])

### Tipos de datos en NumPy
Se usa la propiedad dtype de los objetos array, también se puede usar el método astype(np.tipo_dato), todo el array queda con el mismo tipo de dato, no se pueden mezclar número y texto

In [24]:
# se crea un array
arr = np.array([1, 2, 3, 4])
arr


array([1, 2, 3, 4])

In [25]:
# dtype devuleve el tipo de dato que esta almacenado
arr.dtype


dtype('int64')

In [26]:
# Se puede definir el dtype al crear el array
arr = np.array([1, 2, 3, 4], dtype='float64')
arr.dtype


dtype('float64')

In [28]:
# tambien se puede definir el tipo con el metodo astype
arr2 = np.array([1, 2, 3, 4])
arr2 = arr2.astype(np.float64)
arr2.dtype


dtype('float64')

### Dimensiones en NumPy
Se accede al número de dimensiones con la propiedad ndim de los array
* Escalar, cuando es solo un valor o dimensión 0
* Vector, cuando es una fila o una columna dimmensión 1
* Matriz, cuando es fila y columna hasta la dimensión 3
* Tensor, cuando tiene dimensión n,n

In [34]:
# definir un escalar
escalar = np.array(42)
print(escalar)
print('dimensión: '+ str(escalar.ndim))


42
dimensión: 0


In [35]:
# definir un vector
vector = np.array([1,2,3])
print(vector)
print('dimensión: '+ str(vector.ndim))


[1 2 3]
dimensión: 1


In [36]:
# definir una matriz
matriz2 = np.array([[1,2,3],[4,5,6]])
print(matriz2)
print('dimensión: '+ str(matriz2.ndim))


[[1 2 3]
 [4 5 6]]
dimensión: 2


In [38]:
# definir un tensor
tensor = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
print(tensor)
print('dimensión: '+ str(tensor.ndim))


[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
dimensión: 3


#### Agregar o quitar dimensiones
Se pueden definir el número de dimensiones desde el inicio o agregar a un objeto que ya existe

In [42]:
# en este ejemplo se esta definiendo un tensor de tres dimensiones
tensor_3d = np.array([1,2,3], ndmin=3)
print(tensor_3d)
print('dimensión: '+ str(tensor_3d.ndim))


[[[1 2 3]]]
dimensión: 3


In [79]:
# en este ejemplo se expande la dimension de un vector ya creado
matriz_2d = np.expand_dims(vector, axis=0) #axis 0 es fila, axis 1 es columna
print(matriz_2d)
print('dimensión: '+ str(matriz_2d.ndim))


[[1 2 3]]
dimensión: 2


Con la funcion np.squeeze() se dejan los datos con el número de dimensiones que se están usando

In [44]:
# vamos a quitarle la dimension que tiene de mas matriz_2d
print(matriz_2d, matriz_2d.ndim)
vector_1d = np.squeeze(matriz_2d)
print(vector_1d, vector_1d.ndim)


[[1 2 3]] 2
[1 2 3] 1


### Creando arrays con NumPy
* para rango de valores np.arange(inicio, fin, step)
* para crear un array lleno de ceros np.zeros((nfilas, ncolumnas))
* para crear un array lleno de unos np.ones((nfilas, ncolumnas))
* para crear un array con valor inicio, valor final y cuantos valores en ese rango np.linespace(v_inicio, v_final, cantidad_valores)
* para crear una matriz cuadrada con la diagonal con valores 1 np.eye(valor)
* para crear un array con x cantidad de valores aleatorios entre cero y uno np.random.rand(x)
* para crear una matriz con x cantidad de filas e y cantidad de columnas con valores aleatorios entre cero y uno np.random.rand(nfilas, ncolumnas)
* para generar un valor aleatorio en un rango de datos dado np.random.randint(min, max)
* para generar una matriz con nfilas, mcolumnas y valores aleatorios en un rango dado np.random.randint(min, max,(nfilas,ncolumnas))

In [45]:
# crear un rango de valores con python, sin usar numpy
list(range(0,10)) # crea lista con valores de 0 a 9


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [46]:
# crear rango con numpy
np.arange(0,10)


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [48]:
# crear rango con numpy usando step
np.arange(0,10,2) # crea un array con valores entre cero y 9, de dos en dos, el resultado es 0,2,4,6,8


array([0, 2, 4, 6, 8])

In [49]:
# crear un vector con cinco ceros
np.zeros(5)


array([0., 0., 0., 0., 0.])

In [54]:
# crear una matriz de 3x3 con ceros
np.zeros((3,3))


array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [55]:
# crear una matriz de 3x3 con unos
np.ones((3,3))


array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [62]:
# vector con 5 datos que empieza en cero y termina en 10
np.linspace(0, 10, 5)


array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [64]:
# crea una matriz de 4x4 con la diagonal 1
np.eye(4)


array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [65]:
# genera un array de 4 valores aleatorios entre 0 y 1
np.random.rand(4)


array([0.71392013, 0.14385286, 0.07828336, 0.93864591])

In [66]:
# genera una matriz de 4x4 con valores aleatorios entre 0 y 1
np.random.rand(4,4)


array([[0.29792367, 0.27684137, 0.73198762, 0.83870075],
       [0.75821343, 0.17156779, 0.29180399, 0.27205581],
       [0.65638727, 0.30776123, 0.40080569, 0.50895605],
       [0.39784848, 0.75865439, 0.20580868, 0.79414827]])

In [67]:
# genera un valor aleatorio en n rango dado
np.random.randint(1, 15)


7

In [68]:
# genera una matriz de 4x4 con valores aleatorios en un rango entre 1 y 15
np.random.randint(1,15,(4,4))

array([[ 6, 10,  4,  9],
       [ 9,  3, 13, 14],
       [ 2,  3, 11,  8],
       [13, 14, 11,  9]])

### Modificar dimensiones de arrays con NumPy - shape y reshape
Al modificar los array debe mantener la cantidad de datos inicial nfilas x mcolumnas
* la propiedad shape me dice numero de filas y columnas
* el método reshape sirve para cambiar las dimensiones del array
* se puede usar también la función np.reshape(array, (nfilas, ncolumnas), 'lenguaje')

In [71]:
# crea un array de 3x2 con valores aleatorios entre 1 y 10
arr = np.random.randint(1,10,(3,2))
arr


array([[6, 1],
       [6, 8],
       [7, 4]])

In [72]:
# conocer numero de filas y columnas
arr.shape


(3, 2)

In [73]:
# cambiar array de 3x2 a 1x6
arr.reshape(1,6)


array([[6, 1, 6, 8, 7, 4]])

In [76]:
arr

array([[6, 1],
       [6, 8],
       [7, 4]])

In [74]:
# cambia el array de 3x2 a 1x6 como lo haría el lenguaje C, que organiza por filas
np.reshape(arr, (1,6), 'C')


array([[6, 1, 6, 8, 7, 4]])

In [75]:
# cambia el array de 3x2 a 1x6 como lo haría el lenguaje Fortrant, que organiza por columnas
np.reshape(arr, (1,6), 'F')


array([[6, 6, 7, 1, 8, 4]])

### Funciones principales de NumPy
* obtener valores máximos array.max()
* obtener valores máximos por fila array.max(1)
* obtener valores máximos por columna array.max(0)
* obtener el índice o posición de donde se encuentra el valor máximo del array array.argmax()
* obtener valores mínimos array.max()
* obtener valores mínimos por fila array.max(1)
* obtener valores mínimos por columna array.max(0)
* obtener el índice o posición de donde se encuentra el valor mínimo del array array.argmin()
* obtener la distancia entre el valor máximo y mínimos del array array.ptp()
* organizar los datos de menor a mayor array.sort()
* para concatenar dos array deben tener las mismas dimensiones np.concatenate((array_1, array_2),axis=) axis=0 es por fila, axis=1 es por columna


In [81]:
# se crea un array
arr = np.random.randint(1,20,10)
arr

array([18,  8,  1,  1, 12,  4, 12, 12, 13,  3])

In [82]:
# convertir en matriz el array
matriz = arr.reshape(2,5)
matriz

array([[18,  8,  1,  1, 12],
       [ 4, 12, 12, 13,  3]])

In [83]:
# obtener maximo de todo el conjunto de datos
print(arr.max())
print(matriz.max())


18
18


In [84]:
# obtener maximo por filas d ela matriz
matriz.max(1)


array([18, 13])

In [85]:
# obtener el maximo por columnas
matriz.max(0)


array([18, 12, 12, 13, 12])

In [86]:
# obtiene la posicion en donde se encuentra el valor maximo
arr.argmax()


0

In [87]:
# obtiene la posicion en donde se encuentra el valor maximo
matriz.argmax()


0

In [89]:
matriz


array([[18,  8,  1,  1, 12],
       [ 4, 12, 12, 13,  3]])

In [88]:
# obtener la distancia entre el valor maximo y minimo de la matriz, es como obtener el rango
matriz.ptp()


17

In [90]:
# obtiene la distancia entre el valor maximo y minimo de la matriz por filas
matriz.ptp(1)

array([17, 10])

In [91]:
# obtiene la distancia entre el valor maximo y minimo de la matriz por columnas
matriz.ptp(0)

array([14,  4, 11, 12,  9])

In [93]:
# organiza los datos del array de menor a mayor
arr.sort()
arr

array([ 1,  1,  3,  4,  8, 12, 12, 12, 13, 18])

In [110]:
# crear dos array por fila
a = np.array([[1,2],[3,4]])
b = np.array([5,6])
a.ndim


2

In [111]:
# aumentar una dimension de b para luego concatenar por fila con a
b = np.expand_dims(b,0)
b.ndim

2

In [112]:
# concatenar a y b por fila
c = np.concatenate((a,b),axis=0) #axis=0 indica que es por fila
c

array([[1, 2],
       [3, 4],
       [5, 6]])

In [116]:
# concatenar a y b por columna, se debe transponer b
d = np.concatenate((a, b.T), axis=1) # axis=1 indica que es por columna
d

array([[1, 2, 5],
       [3, 4, 6]])