## Proceso de datos usando arrays 
### Lectura y escritura de arrays en ficheros

Los arrays realizan una gestión de la memoria mucho más eficiente que las listas y por tanto se mejora el rendimiento.

* Se realizan muchas operaciones mediante expresiones sobre arrays que en otros casos requerirían múltiples y costosos loops. A esto se le llama __vectorización__.

* Las funciones de __NumPy__ se ejecutan de forma tan eficiente como se ejecutarían en otros lenguajes como por ejemplo Fortran, C y C++. 


In [1]:
import numpy as np

### Métodos matemáticos y estadisticos

El módulo __NumPy__ proporciona métodos que permiten realizar otras operaciones, como el mínimo elemento de un array, el máximo, la media de los elementos de un array, etc.

> Se puede encontrar la lista de funciones en __scipy.org__ (http://wiki.scipy.org/Numpy_Example_List) 

Veamos algunos ejemplos:

In [3]:
a = np.random.rand(6)     # 6 valores aleatorios en el intervalo [0,1)
print( "a: ", a )

a:  [0.17134068 0.76987266 0.6390946  0.35905123 0.04714367 0.51722121]


In [4]:
a.sum()      # suma todos los elementos

2.503724064280741

In [5]:
# calcula el elemento mínimo del array a
a.min()

0.047143673764421856

In [6]:
# calcula el elemento máximo del array a
a.max() 

0.7698726641489949

In [6]:
a.argmin()    # Devuelve los índices de los valores iguales al valor mínimo


0

In [7]:
a.mean()     # Calcula la media de los elementos de array a

0.21691982931539022

Las operaciones anteriores se han realizado para todos los valores del array, independientemente de su forma. 
* Si tenemos un array bidimensional, es posible calcular la suma de las columnas, o de las filas.  
* Lo que tenemos que hacer es indicarlo mediante el parámetro __axis__ en el método.



In [7]:
# creamos dos arrays a y b
a = np.arange(6)        # 6 valores 
print("a: ", a)
b = a.reshape(2,3)   # b se define a partir de los valores de a, sistribuyendo los valores en dos filas, tres columnas
print( "b: ")
print(b)

a:  [0 1 2 3 4 5]
b: 
[[0 1 2]
 [3 4 5]]


In [8]:
print ( b.sum(axis = 0)  )   # suma por columnas
print ( b.sum(axis = 1)  )   # suma por filas

[3 5 7]
[ 3 12]


In [10]:
print ( b.mean(axis = 0) )   # media de las columnas 

[ 1.5  2.5  3.5]


In [11]:
print ( b.cumsum(axis = 0)  )   # suma acumulada por columnnas

[[0 1 2]
 [3 5 7]]


In [12]:
print ( b )
print ( b.cumprod(axis = 1) )  # producto acumulado por filas

[[0 1 2]
 [3 4 5]]
[[ 0  0  0]
 [ 3 12 60]]


Existen más funciones estadísticas. Se pueden consultar usando `dir(numpy)`. Muchas de las funciones que hemos mencionado disponen de más argumentos que los mostrados. En la ayuda se describen el resto de argumentos.

### Operaciones lógicas

Supongamos que queremos contar el número de elementos positivos en un array multidimensional. 
* Podemos hacer uso de que True tiene valor 1 y False vale 0.

In [9]:
a = np.random.randn(4,5)
a

array([[ 2.12454768, -1.54885819, -0.2500853 , -0.87097663, -0.95485928],
       [-0.40095861,  0.34488351,  0.57138602,  0.60950135,  0.3210645 ],
       [-1.01507631, -0.60057378,  1.21803222,  1.7717789 ,  0.18017705],
       [ 0.44885632,  0.58607329,  1.26719648,  0.53877924, -0.1024704 ]])

In [10]:
( a > 0 )

array([[ True, False, False, False, False],
       [False,  True,  True,  True,  True],
       [False, False,  True,  True,  True],
       [ True,  True,  True,  True, False]])

In [15]:
(a > 0).sum()

9

### Operaciones sobre conjuntos

La operación __unique__ aplicado a un array `a` devuelve un array ordenado de valores en `a` sin repetición:

In [16]:
a = np.array([1,5,6,4,1,4,5,3,1,1,4,4,4,3,2,2,2,2])

np.unique(a)

array([1, 2, 3, 4, 5, 6])

## Lectura y escritura de arrays en Ficheros

### Formato binario

__NumPy__ dispone de las funciones __save__ y __load__ para grabar y cargar arrays en disco en formato  formato binario.

In [11]:
y = np.array([2.,4.,6.,8.])      # Creamos un array unidimensional
print(y) 

[2. 4. 6. 8.]


In [12]:
np.save('mi_array', y)       #se guarda en formato binario con extensión .npy

Para cargar el array en memoria ejecutamos la función __load__.

In [16]:
a = np.load('mi_array.npy')
a

array([2., 4., 6., 8.])

### Formato txt

Las operaciones __savetxt__ y __loadtxt__ son las equivalentes a __save__ y __load__.


In [17]:
a

array([2., 4., 6., 8.])

In [18]:
b = a.reshape(2,2)
np.savetxt("mi_otro_array", b, delimiter=',')

In [19]:
b

array([[2., 4.],
       [6., 8.]])

In [21]:
c = np.loadtxt('mi_otro_array', delimiter=',')
c

array([[ 2.,  4.],
       [ 6.,  8.]])

## Referencias


* https://docs.scipy.org/doc/numpy-dev/user/quickstart.html
* http://scipy.org/
* Python for Data Analysis - (http://shop.oreilly.com/product/0636920023784.do)

-----