## NumPy


- NumPy (__Num__ erical __Py__ thon) es la de facto librería estándar para análisis numérico en Python
- Estructura de datos multidimensional eficiente (escrita en C): ndarray
- Colección de funciones para álgebra lineal, estadística descriptiva
- Ayuda al procesamiento de datos (np.where)

In [None]:
#importar libreria
import numpy as np

In [None]:
shopping_list = [ ['onions','carrots','celery'], ['apples','oranges','grapes'] ] # 2D
array = np.array(shopping_list) # convertir una lista en una ndarray
print(array)
print(type(array))

## Formas de crear ndarrays

In [None]:
print(np.array([100,10,1])) # array a partir de una lista
print(np.arange(2,10,2))    # array a partir de una secuencia(range) 1D

In [None]:
# Generar arrays con valores fijos
print(np.zeros(5))       # 1D
print(np.ones((2,2)))    # matrix 2x2
print(np.empty((2,2,2))) # matrix 2x2x2, no inicializados
print(np.full((5,2),7)) # matrix 5x2
print(np.eye(3))         # matrix identity

## Obtener información sobre ndarray

In [None]:
my_ndarray = np.array([2,71,0,19])
print(my_ndarray)
print(my_ndarray.argmax())    # índice del valor más alto
print(my_ndarray.argmin())    # índice del valor más bajo
print(my_ndarray.nonzero())   # retorna los índices de los elementos distintos a 0

In [None]:
my_ndarray = np.full((5,2),-3) # matrix 5x2
print(my_ndarray)
print(my_ndarray.size)        # número de elementos == len(my_ndarray) (atributo)
print(my_ndarray.shape)       # dimensiones
print(my_ndarray.ndim)        # número de dimensiones

#### Redimensionar los datos

In [None]:
my_ndarray = np.array([[10, 71, 21, 19, 213, 412, 111, 98]])  # matrix 1x8
print(my_ndarray.shape)

# cambiar las dimensiones a 4x2
new_dims = my_ndarray.reshape(4, 2)
print(new_dims)

# cambiar las dimensiones a 2x4
new_dims = my_ndarray.reshape(2, 4) # qué sucede si utilizamos otros valores?
print(new_dims)

In [None]:
# Cambiar ejes
new_dims = np.arange(16).reshape(4,4)
print(new_dims)
print(new_dims.swapaxes(0,1))

In [None]:
# reducir a 1D
new_dims = np.arange(9).reshape(3,3)
print(new_dims)
print(new_dims.flatten())

## Manipulación de ndarrays

In [None]:
# ordenar
array1 = np.array([10,2,9,17])
array1.sort()
print(array1)

In [None]:
# Juntar dos arrays
a1 = [0,0,0,0,0,0]
a2 = [1,1,1,1,1,1]
print(np.hstack((a1,a2))) # una al lado de la otra
print(np.vstack((a1,a2))) # una encima de la otra

In [None]:
# dividir un array
array = np.arange(16).reshape(4,4)
print(array)
print(np.array_split(array,2)) # divide array en 2 partes iguales
print(np.array_split(array,3)) # divide array en 3 partes "iguales"

# Índices y slicing
- De manera análoga a índices y slicing para listas

In [None]:
array = np.arange(10, 16)
print(array)
print(array[-1])    # acceso unidimensional
print(array[:-1])  # slice

In [None]:
# bidimensional
array = np.arange(16)
array = array.reshape(4,4)
print(array)
print(array[0, 1]) # fila, columna

In [None]:
# multidimensional
array = np.arange(36).reshape(2,3,6)
print(array)
print(array[1,2,4])

#### NumPy es row major

In [None]:
row_major = np.array([1, 2, 3, 4, 5, 6])
row_major = row_major.reshape(2,3,order='C')  # by default, row major
print(row_major)

col_major = np.array([1, 2, 3, 4, 5, 6])
col_major = col_major.reshape(2,3,order='F')  # col major
print(col_major)

#### Diferencias entre índices y slicing en listas y ndarrays:
- ¡Retornan una referencia, no una copia!

In [None]:
# uso de slice en listas, retorna copia
lista = [0,1,2,3,4,5,6,7,8,9]
my_copy = lista[0:2]  # devuelve una copia
my_copy[0] = 222
print(lista)
print(my_copy)

In [None]:
# slicing retorna una referencia en ndarrays
array = np.arange(10)
my_copy = array[2:5]  # devuelve una referencia
print(array)
my_copy[0] = 222
print(array)
print(my_copy)

In [None]:
# copiar ndarrays
array = np.arange(10)
my_copy = array[2:5].copy()  # hay que hacer la copia explicitamente
my_copy[0] = 222
print(array)
print(my_copy)

- Permite asignar valores a un corte

In [None]:
array = np.arange(10)
array[0:3] = -1
print(array)

- Slicing condicionales (mask)

In [None]:
# slicing condicional
array = np.arange(-3,4)
print(array)

mask = array < 0
print(mask)

print(array[mask])

array[mask] = 0
print(array)

In [None]:
# slicing condicional
array = np.arange(-3,4)
print(array)
mask = array > 0

array_positive = array[mask]  # devuelve una copia
print(array_positive)

array_positive[0] = -10
print(array)
print(array_positive)

In [None]:
# slicing condicional
array = np.arange(-3,4)
mask = array % 2 == 0
print(mask)
print(array)
print(array[mask])

array[mask] = 10 # ??
print(array)

mask = array == 10
array[mask] = 0 # ??
print(array)

- Acceso a múltiples valores con listados de índices

In [None]:
array = np.arange(-10,0)
print(array)
print(array[[0,2,4]])

## Operadores unarios y binarios

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

In [None]:
# ejemplos de operadores
array = np.arange(5)
np.sqrt(array)

In [None]:
# ejemplos de operadores
array1 = np.arange(4)
array2 = np.array([0,-1,2,-3])
np.greater(array1,array2)

# Estadística descriptiva
- Importante saber la naturaleza de los datos
- Valores máximos, mínimos, distribución, etc.

| Función | Descripción |
|:---------|:-----|
| *sum(arr)* | Suma de todos los elementos de *arr* |
| *mean(arr)* | Media aritmética de los elementos de *arr* |
| *std(arr)* | Desviación estándar de los elementos de *arr* |
| *cumsum(arr)* | Devuelve array con la suma acumulada de cada elementos con todos los anteriores |
| *cumprod(arr)* | Devuelve array con el producto acumulado de cada elementos con todos los anteriores |
| *min(arr), max(arr)* | Mínimo y máximo de *arr* |
| *any(arr)* | En array de tipo *bool*, retorna *True* si algún elemento es *True* |
| *all(arr)* | En array de tipo *bool*, retorna *True* si todos los elementos son *True* (o >0 en valores numéricos) |
| *unique(arr)* | Devuelve un array con valores únicos |
| *in1d(arr1, arr2)* | Devuelve un array con bool indicando si cada elemento de *arr1* está en *arr2* |
| *union1d(arr1, arr2)* | Devuelve la unión de ambos arrays |
| *intersect1d(arr1, arr2)* | Devuelve la intersección de ambos arrays |

In [None]:
# sum != cumsum
array1 = np.arange(9)
print(array1)
print(array1.sum())
print(array1.cumsum())

In [None]:
# any vs all
array1 = np.arange(10).reshape(2,5)
print(array1)
print(array1.any()) # any para saber si hay elementos True o valores > 0
print(array1.all()) # all para saber si TODOS los elementos son True o valores > 0

# Filtrado de datos
- Filtrar y modificar datos numéricos con np.where
- Retorna A o B en función de una condición en una array

In [None]:
prices = np.array([0.99, 14.49, 19.99, 20.99, 0.49])
# mask con los elementos menores de 1
mask = np.where(prices < 1, True, False)
print(mask)
print(prices[mask])

print(np.where(prices < 1, 1.0, prices))

In [None]:
# Se puede usar para sustituir datos fuera de rango
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49, 12.1]).reshape(2, 3)
clean_data = np.where(bank_transfers_values > 0, bank_transfers_values,0)
print(clean_data)

In [None]:
# limpiar NaN (sustitución)
data = [10, 12, -143, np.nan, 1, -3] # np.nan --> NotANumber, elemento especial
data_clean = np.where(np.isnan(data),0,data)
print(data_clean)

In [None]:
# np.where puede seleccionar elementos
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49, 12.1]).reshape(2, 3)
credits = np.where(bank_transfers_values > 0) # array de índices para los que la condición es True

print(credits)
print(bank_transfers_values[credits]) # es igual que bank_transfers_values[bank_transfers_values > 0]

In [None]:
# valor de array dependiendo del valor en array referencia
rewards_default = np.arange(6)
rewards_upgrade = np.arange(6) * 10
daily_points = np.array([0, 0, 1, 6, 0, 2])

final_rewards = np.where(daily_points > 1, rewards_upgrade, rewards_default)
print(final_rewards)

# Números aleatorios
- Python módulo random

In [None]:
import random
print(random.random()) # número entre 0 y 1
print(random.randint(0,50)) # integral entre dos valores
print(random.uniform(0,5)) # real entre dos valores

In [None]:
# elegir un elemento al azar dentro de una colección
names = ['Marta','Anna','Vanesa']
random.choice(['Marta','Anna','Vanesa'])

## NumPy.random
- Generar fácilmente listas con valores aleatorios

In [None]:
print(np.random.rand()) # número entre 0 y 1
print(np.random.randint(0,5)) # integral entre dos valores 
print(np.random.randint(5, size=(2, 4))) # parametro 'size' para indicar las dimensiones)

In [None]:
import numpy as np
# array de elementos aleatorios (distribucion normal gaussiana, media 0, desviación 1)
print(np.random.randn(4,2))

## Random seed
- Números pseudo-aleatorios
- Ordenadores generan números a partir de ecuaciones
- Basadas en un número inicial (seed)
- Bueno para reproducibilidad de experimentos

In [None]:
i = 5
for _ in range(5):
    np.random.seed(i) # misma semilla
    print(np.random.rand())

print()    
    
for i in range(5):
    np.random.seed(i) # diferentes semillas
    print(np.random.rand())

# Escritura y lectura de ndarrays a archivos 
- Para futuro acceso
- Compartir datos con otros
- Formato *.npy

In [None]:
# escribir a archivo
import numpy as np
import os
ruta = os.path.join("res" ,"o_values_array.npy")
values = np.random.randint(9, size=(3,3))
np.save(ruta, values)
print(values)

In [None]:
# leer de archivo
old_values = np.load(ruta)
print(old_values)

In [None]:
# escribir y cargar múltiples arrays
ruta = os.path.join("res" ,"o_array_group.npz")
values1 = np.random.randint(9,size=(3,3))
values2 = np.random.randint(4,size=(2,2))
values3 = np.random.randint(16,size=(4,4))
np.savez(ruta,values1,values2,values3) # añade la extensión .npz   

In [None]:
# leer los archivos (retorna un diccionario con las arrays)
npzfile = np.load(ruta)
print(type(npzfile.files))
for key in npzfile.files: # array.files contiene el nombre de las arrays (arr_0, arr_1...)
    print(npzfile[key])

### ¿Por qué molestarse con .npy?
- Bases de datos suelen estar en CSV o txt, que requieren lectura con streams (parsing)
- ¿Para qué escribir los datos de nuevo?

In [None]:
ruta_csv = os.path.join("res" ,"fdata.csv")
with open(ruta_csv,'r') as f:
    data_str = f.read()
data = data_str.split(',')
data_array = np.array(data, dtype = np.int8).reshape(1000,1000)
print(data_array)

ruta_npy = os.path.join("res" ,"o_fdata.npy")
np.save(ruta_npy, data_array)

In [None]:
%%timeit # magic function jupyter
with open(ruta_csv,'r') as f:
    data_str = f.read()
data = data_str.split(',')
data_array = np.array(data,  dtype = np.int8).reshape(1000,1000)

In [None]:
%%timeit
data = np.load(ruta_npy)

### velocidad + simplicidad vs memoria