In [None]:
## Ejemplos a partir de:
## https://www.machinelearningplus.com/python/numpy-tutorial-python-part2/

In [None]:
# Crear un array
import numpy as np
arr_rand = np.array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
print("Array: ", arr_rand)

In [None]:
# Posiciones donde el valor > 5
index_gt5 = np.where(arr_rand > 5)
print("Posiciones donde valor > 5: ", index_gt5)

In [None]:
# Seleccionar elementos según el índice
arr_rand.take(index_gt5)

In [None]:
# Si el valor es mayor que 5, cambniar por '>5' en caso contrario, por '<=5'
np.where(arr_rand > 5, '>5', '<=5')

In [None]:
# Posición del máximo
print('Posicion del valor maximo: ', np.argmax(arr_rand))  

# Posición del mínimo
print('Posicion del valor minimo: ', np.argmin(arr_rand))

In [None]:
# Desactivar notación científica
np.set_printoptions(suppress=True)  

# Importar datos (solo numéricos) en formato csv desde una url
url = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(url, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
data[:3]  # tres primeras filas
# Rellenamos los valores no válidos (los que no son float con -999)

In [None]:
# Importar datos (numérico y alfanumérico) en csv desde una url
data2 = np.genfromtxt(url, delimiter=',', skip_header=1, dtype=None)
data2[:3]  # tres primeras filas

In [None]:
# Guardamos en array como CSV
np.savetxt("out.csv", data, delimiter=",")

In [None]:
list2 = [[0,1,2], [3,4,5], [6,7,8]]
arr2d = np.array(list2)
# Guardar en disco un objeto "numpy array" como archivo .npy
np.save('miarray.npy', arr2d)  

arr2d_f = np.array(list2, dtype='float')
arr2d_b = np.array([1, 0, 10], dtype='bool')
# Guardar en disco varios objetos, como archivo .npz
np.savez('array.npz', arr2d_f, arr2d_b)

In [None]:
# Cargar el fichero npy
a = np.load('miarray.npy')
print(a)

In [None]:
# Cargar el fichero npz
b = np.load('array.npz')
print(b.files)
b['arr_0']

In [None]:
# creamos un par de arrays
a = np.zeros([4, 4])
b = np.ones([4, 4])
print(a)
print(b)

In [None]:
# Apilamiento vertical (juntar filas)
np.concatenate([a, b], axis=0)  
np.vstack([a,b])  
np.r_[a,b]

In [None]:
# Apilamiento horizontal (juntar columnas)
np.concatenate([a, b], axis=1) 
np.hstack([a,b])  
np.c_[a,b]

In [None]:
np.r_[[1,2,3], 0, 0, [4,5,6]]

In [None]:
#Creamos un array aleatorio
arr = np.random.randint(1,6, size=[8, 4])
arr

In [None]:
# Ordenamos cada columna
np.sort(arr, axis=0)

In [None]:
# Obtener los índices que ordenarían el array
x = np.array([1, 10, 5, 2, 8, 9])
sort_index = np.argsort(x)
print(sort_index)

In [None]:
# el array, seleccionado por el índice que lo ordena, es el array ordenado, lógicamente.
x[sort_index]

In [None]:
# Obtenemos el índice que ordenaría la primera columna
sorted_index_1stcol = arr[:, 0].argsort()

# Ordenamos todo el array por el índice que ordena la primera columna
arr[sorted_index_1stcol]

In [None]:
# Orden descendiente
arr[sorted_index_1stcol[::-1]]

In [None]:
# Ordenar primero por la columna 0, luego por la columna 1
lexsorted_index = np.lexsort((arr[:, 1], arr[:, 0])) 
arr[lexsorted_index]

In [None]:
# Crear un objeto datetime64
date64 = np.datetime64('2018-09-06 23:10:10')
date64

In [None]:
# Eliminar la componente "tiempo"
dt64 = np.datetime64(date64, 'D')
dt64

In [None]:
# Generar una serie de timedeltas
tenminutes = np.timedelta64(10, 'm')  # 10 minutes
tenseconds = np.timedelta64(10, 's')  # 10 seconds
tennanoseconds = np.timedelta64(10, 'ns')  # 10 nanoseconds

# Sumar un número entero, suma un número de días
print('Suma 10 dias: ', dt64 + 10)
print('Suma 10 minutos: ', dt64 + tenminutes)
print('Suma 10 segundos: ', dt64 + tenseconds)
print('Suma 10 nanosegundos: ', dt64 + tennanoseconds)

In [None]:
# Convertir de nuevo a str
np.datetime_as_string(dt64)

In [None]:
# Generar rango (secuencia) de fechas
dates = np.arange(np.datetime64('2018-02-01'), np.datetime64('2018-02-10'))
print(dates)

# Comprobar si son días laborables
np.is_busday(dates)

In [None]:
# Convertir de np.datetime64 a datetime.datetime
import datetime
dt = dt64.tolist()
dt

In [None]:
print('Año: ', dt.year)  
print('Dia del mes: ', dt.day)
print('Mes del año: ', dt.month)  
print('Dia de la semana: ', dt.weekday())  # Lunes = 0, Martes = 1, ..., Domingo = 6.

In [None]:
# Definimos una función escalar
def foo(x):
    if x % 2 == 1:
        return x**2
    else:
        return x/2

# Sobre escalares funciona correctamente
print('x = 10 devuelve ', foo(10))
print('x = 11 devuelve ', foo(11))

# Sobre listas, no funciona
print('x = [10, 11, 12] devuelve ', foo([10, 11, 12]))  # Error 

In [None]:
# Vectorizamos la función "foo" para que funcione sobre arrays / listas
foo_v = np.vectorize(foo, otypes=[float])

print('x = [10, 11, 12] devuelve ', foo_v([10, 11, 12]))
print('x = [[10, 11, 12], [1, 2, 3]] devuelve ', foo_v([[10, 11, 12], [1, 2, 3]]))

In [None]:
# inicializamos la semilla 
np.random.seed(100)
# Creamos un array aleatorio de elementos equiprobables en [0, 10) de dimensiones 4, 10 
arr_x = np.random.randint(1,10,size=[4,10])
arr_x

In [None]:
# Definimos una función tipo "func1d" que se aplicable sobre vectores 1 dimensionales.
def max_minus_min(x):
    return np.max(x) - np.min(x)

# Apply along the rows
print('Por filas: ', np.apply_along_axis(max_minus_min, 1, arr=arr_x))

# Apply along the columns
print('Por columnas: ', np.apply_along_axis(max_minus_min, 0, arr=arr_x))

In [None]:
# Ejemplo de searchsorted - ¿donde habría que insertar un elemento para que el array siguiera ordenado?
x = np.arange(10)
print('¿Donde puedo insertar un 5?: ', np.searchsorted(x, 5))
print('¿Donde puedo insertar un 5, a la derecha?: ', np.searchsorted(x, 5, side='right'))

In [None]:
# La función searchsorted nos permite realizar muestreos aleatorios de distribuciones de probabilidad discretas no uniformes
# lo que se conoce como Roulette Wheel Selection.
lst = range(10000)  # la lista
probs = np.random.random(10000); probs /= probs.sum()  # sus probabilidades
# medir el tiempo de utilizar Roulette Wheel Selection (searchsorted) vs el tiempo que tardaría np.random.choice
%timeit lst[np.searchsorted(probs.cumsum(), np.random.random())]
%timeit np.random.choice(lst, p=probs)

In [None]:
# Crear un array 1 dimensional
x = np.arange(5)
print('Array original : ', x)

# Añade un nuevo eje columna
x_col = x[:, np.newaxis]
print('x_col shape: ', x_col.shape)
print(x_col)

# Añade un nuevo eje fila
x_row = x[np.newaxis, :]
print('x_row shape: ', x_row.shape)
print(x_row)

# aunque el resultado sigue teniendo 5 elementos, ha cambiado el tamaño de 1 dimension a 2.

In [None]:
# Crear un array y unos intervalos (bins)
x = np.arange(10)
bins = np.array([0, 3, 6, 9])

# Atribuir los elementos del array a los intervalos (bins)
np.digitize(x, bins)

In [None]:
# Truncar los elementos de un array entre límites inferior y superior
np.clip(x, 3, 8)

In [None]:
# Ejemplo de cuenta de elementos en intervalos
x = np.array([1,1,2,2,2,4,4,5,6,6,6]) # No necesita estar ordenado
print(np.bincount(x)) # 0 ocurre 0 veces, 1 ocurre 2 veces, 2 ocurre 3 veces, 3 ocurre 0 veces, .....
# desde 0 hasta el valor más alto.

# Ejemplp de Histograma
counts, bins = np.histogram(x, [0, 2, 4, 6, 8])
print('Counts: ', counts)
print('Bins: ', bins)