# Tabla de Contenidos
* [Procesando Datos Usando Arrays](#Procesando-Datos-Usando-Arrays)
	* [Eficiencia de NumPy](#Eficiencia-de-NumPy)
		
	* [Expresiones condicionales](#Expresiones-condicionales)
	* [Métodos matemáticos y estadisticos](#Métodos-matemáticos-y-estadisticos)
	* [Operaciones lógicas](#Operaciones-lógicas)
	* [Orden](#Orden)
	* [Operaciones sobre conjuntos](#Operaciones-sobre-conjuntos)
	* [Lectura y escritura de arrays en Ficheros](#Lectura-y-escritura-de-arrays-en-Ficheros)
		* [Formato binario](#Formato-binario)
		* [Formato txt](#Formato-txt)
		* [Otras opciones en el módulo IO](#Otras-opciones-en-el-módulo-IO)
	* [Algebra lineal](#Algebra-lineal)
		* [La clase MATRIX](#La-clase-MATRIX)
 


# Procesando Datos Usando Arrays

## Eficiencia de NumPy

Los arrays realizan una gestión de la memoria mucho más eficiente que las listas y por tanto se mejora el rendimiento.


* Se realizan muchas operaciones mediante expresiones sobre arrays que en otros casos requerirían múltiples y costosos loops. A esto se le llama __vectorización__.

* Las funciones de __NumPy__ se ejecutan de forma tan eficiente como se ejecutarían en otros lenguajes como por ejemplo Fortran, C y C++. 

* Para los casos en los que la ejecución sea más eficiente en otros lenguajes, como por ejemplo Fortran, existen herramientas que nos permiten ejecutar desde Python nuestros códigos en otros lenguajes como [f2py](http://docs.scipy.org/doc/numpy-dev/f2py/). 

## Expresiones condicionales

La función  [__where__](http://wiki.scipy.org/Numpy_Example_List#where) es la versión vectorizada de la expresión ternaria __x if cond else y__ que ya hemos visto anteriormente.

Supongamos que tenemos los tres arrays:

In [54]:
import numpy as np
x = np.arange(1,5)
y = np.arange(5,9)
cond = np.array([True, False, False, True])
x, y

(array([1, 2, 3, 4]), array([5, 6, 7, 8]))

Supongamos que queremos obtener el valor de x cuando se cumpla la condición en $cond$. En otro caso obtendremos el valor de y. Queremos obtener por tanto el array [1,6,7,4].

In [55]:
# Primera versión sin operacion vectorizada where
z1 = np.array([x if cond else y for x, y, cond in zip(x, y, cond)])
z1

array([1, 6, 7, 4])

In [56]:
# Segunda versión - operación vectorizada where
x = np.arange(1,5)
y = np.arange(5,9)
cond = np.array([True, False, False, True])
z2 = np.where(cond, x, y)
z2

array([1, 6, 7, 4])

Los dos últimos argumentos de la operación __where__ no tienen por qué ser arrays, pueden ser escalares.

En análisis de datos la operación __where__ se utiliza mucho para crear nuevos arrays a partir de los datos de otros. Supongamos que tenemos un array $a$ de dos dimensiones y queremos construir otro array $r$ tal que:

$$
r(x,y) = \begin{cases} 1 &\mbox{if } a(x,y) \ge 0 \\ 
                       -1 & \mbox{if }  a(x,y) \lt 0. \end{cases}
$$

In [57]:
a = np.random.randn(3,5)
a

array([[ 0.10109082,  1.25323961,  0.17643054,  0.02164525, -0.95706447],
       [ 0.66839243, -0.53786063, -0.08289314,  0.41694273,  0.61358669],
       [ 1.10765718, -0.86867688, -0.43401804,  1.53861149, -1.16035282]])

In [58]:
r = np.where( a >= 0, 1, -1)
r

array([[ 1,  1,  1,  1, -1],
       [ 1, -1, -1,  1,  1],
       [ 1, -1, -1,  1, -1]])

Supongamos ahora que el array $r$ es tal  que:

$$
r(x,y) = \begin{cases} a(x,y)*10  &\mbox{if } a(x,y) \ge 0 \\ 
                       0 & \mbox{if }  a(x,y) \lt 0 \end{cases}
$$

In [59]:
r = np.where( a >= 0, a * 10 , 0)
r

array([[  1.0109082 ,  12.53239609,   1.76430541,   0.21645252,   0.        ],
       [  6.68392428,   0.        ,   0.        ,   4.16942732,
          6.13586685],
       [ 11.07657182,   0.        ,   0.        ,  15.38611488,   0.        ]])

Pero también podemos tener expresiones más complicadas. Por ejemplo:

$$
r(x,y) = \begin{cases} 1  &\mbox{if } a(x,y) \gt 0 \\ 
                       0  &\mbox{if }  a(x,y) \lt 0 \\
                       -1 &\mbox{if }  a(x,y) = 0 \end{cases}
$$

In [60]:
a = a.astype(np.int32)
print(a)
r = np.where(a > 0, 1 , np.where( a < 0, -1 , 0))
r

[[ 0  1  0  0  0]
 [ 0  0  0  0  0]
 [ 1  0  0  1 -1]]


array([[ 0,  1,  0,  0,  0],
       [ 0,  0,  0,  0,  0],
       [ 1,  0,  0,  1, -1]])

## Métodos matemáticos y estadisticos

El módulo __NumPy__ proporciona métodos que permiten realizar otras operaciones, como el mínimo elemento de un array, el máximo, la media de los elementos de un array, etc.

[sum](http://wiki.scipy.org/Numpy_Example_List#sum),
   [cumsum](http://wiki.scipy.org/Numpy_Example_List#cumsum), 
   [cumprod](http://wiki.scipy.org/Numpy_Example_List#cumprod), 
   
   [max](http://wiki.scipy.org/Numpy_Example_List#max), 
   [argmax](http://wiki.scipy.org/Numpy_Example_List#argmax), 
   [min](http://wiki.scipy.org/Numpy_Example_List#min), 
   [argmin](http://wiki.scipy.org/Numpy_Example_List#argmin),
   
   [mean](http://wiki.scipy.org/Numpy_Example_List#mean), 
   [var](http://wiki.scipy.org/Numpy_Example_List#var),
   [std](http://wiki.scipy.org/Numpy_Example_List#std)

> Se puede encontrar la lista de funciones en [scipy.org](http://wiki.scipy.org/Numpy_Example_List) 
>


In [61]:
a = np.random.rand(6)     # 6 valores aleatorios en el intervalo [0,1)
print( "a: ", a )

print( a.sum() )
print( a.min() )
print( a.max() ) 

a:  [ 0.0280171   0.94138087  0.84256275  0.969537    0.10347133  0.25374851]
3.13871757133
0.028017104141
0.96953700416


Las operaciones anteriores se han realizado para todos los valores del array, independientemente de su forma. 
* Si tenemos un array bidimensional, es posible calcular la suma de las columnas, o de las filas.  
* Lo que tenemos que hacer es indicarlo mediante el parámetro __axis__ en el método.

In [62]:
a = np.arange(6)        # 6 valores 
print("a: ", a)
b = a.reshape(2,3)   # b se define a partir de los valores de a, sistribuyendo los valores en dos filas, tres columnas
print( "b: ")
print(b)

a:  [0 1 2 3 4 5]
b: 
[[0 1 2]
 [3 4 5]]


In [67]:
print(b.sum(axis = 0)  )   # suma por columnas
print(b.sum(axis = 1)  )   # suma por filas

[3 5 7]
[ 3 12]


In [68]:
print(b.mean(axis = 0) )   # media de las columnas 

[ 1.5  2.5  3.5]


In [69]:
print (b.cumsum(axis = 0)  )   # suma acumulada por columnnas

[[0 1 2]
 [3 5 7]]


In [71]:
print (b)
print (b.cumprod(axis = 1) )  # producto acumulado por filas

[[0 1 2]
 [3 4 5]]
[[ 0  0  0]
 [ 3 12 60]]


## Operaciones lógicas

Supongamos que queremos contar el número de elementos positivos en un array multidimensional. 
* Podemos hacer uso de que True tiene valor 1 y False vale -1

In [74]:
a = np.random.randn(4,5)
a

array([[-1.54619101, -0.63327742,  0.05742903,  0.35146208, -0.59696911],
       [-0.10126363,  1.61114447,  0.40508896,  0.36181897, -1.19850686],
       [ 0.73076939, -0.63944547,  1.24188506, -0.584933  , -0.02404669],
       [ 0.41509617, -0.01579121, -0.03268843,  0.53493148, -0.48425671]])

In [75]:
(a > 0)

array([[False, False,  True,  True, False],
       [False,  True,  True,  True, False],
       [ True, False,  True, False, False],
       [ True, False, False,  True, False]], dtype=bool)

In [76]:
(a > 0).sum()

9

Los métodos [__all__](http://wiki.scipy.org/Numpy_Example_List#all) y   [__any__](http://wiki.scipy.org/Numpy_Example_List#any) son útiles para trabajar con arrays de booleanos.


In [77]:
b = (a > 0)
b.all()              # devuelve True si todos son True

False

In [78]:
b.any()   # devuelve True si alguno es True

True

## Orden

Al igual que hacíamos con listas, es posible ordenar arrays con la función __sort__. Esta operación es muy efeciente, ya que no se ordena sobre una copia, sino que se ordena sobre el propio array.

In [79]:
a = [5,6,2,4]    #lista
a.sort()
a

[2, 4, 5, 6]

In [80]:
a = np.random.randn(4,5) * 100
b = a.astype(np.int)
b

array([[ 215,  -23,  -37,  -55,   58],
       [ -63,  -76,  120,  -63,  -42],
       [ -31,  -29, -188,   24,   -2],
       [ 166,  -10,  -83,   47,  157]])

In [81]:
b.sort(0)    # ordenar los elementos por columnas
b

array([[ -63,  -76, -188,  -63,  -42],
       [ -31,  -29,  -83,  -55,   -2],
       [ 166,  -23,  -37,   24,   58],
       [ 215,  -10,  120,   47,  157]])

In [82]:
b.sort(1)    # ordenar los elementos por filas
b

array([[-188,  -76,  -63,  -63,  -42],
       [ -83,  -55,  -31,  -29,   -2],
       [ -37,  -23,   24,   58,  166],
       [ -10,   47,  120,  157,  215]])

## Operaciones sobre conjuntos

La operación __unique__ aplicado a un array $A$ devuelve un array ordenado de valores en $a$ sin repetición:

In [83]:
a = np.array([1,5,6,4,1,4,5,3,1,1,4,4,4,3,2,2,2,2])

np.unique(a)

array([1, 2, 3, 4, 5, 6])

La función __in1d__ comprueba si los valores de un array están contenidos en otro conjunto de valores. El valor devuelto es un array de booleanos.

In [84]:
b = a.reshape(6,3)
b

array([[1, 5, 6],
       [4, 1, 4],
       [5, 3, 1],
       [1, 4, 4],
       [4, 3, 2],
       [2, 2, 2]])

In [85]:
np.in1d(b, [1,2,3])

array([ True, False, False, False,  True, False, False,  True,  True,
        True, False, False, False,  True,  True,  True,  True,  True], dtype=bool)

## Lectura y escritura de arrays en Ficheros

### Formato binario

__NumPy__ dispone de las funciones __save__ y __load__ para grabar y cargar arrays en disco en formato  formato binario.

In [86]:
y = np.array([2.,4.,6.,8.])      # Creamos un array unidimensional
print(y) 

[ 2.  4.  6.  8.]


In [87]:
np.save('mi_array', y)       #se guarda en formato binario con extensión .npy

Para cargar el array en memoria ejecutamos la función __load__.

In [88]:
a = np.load('mi_array.npy')
a

array([ 2.,  4.,  6.,  8.])

### Formato txt

Las operaciones __savetxt__ y __loadtxt__ son las equivalentes a __save__ y __load__.


In [89]:
b = a.reshape(2,2)
np.savetxt("mi_otro_array", b, delimiter=',')

In [90]:
c = np.loadtxt('mi_otro_array', delimiter=',')
c

array([[ 2.,  4.],
       [ 6.,  8.]])

### Otras opciones en el módulo IO

* Otra forma de crear un array es mediante la función __fromfile__. El array se crea a partir de los datos contenidos en un fichero de texto o un fichero binario.

In [91]:
# escribimos el contenido del array en un fichero en formato binario
import io
y.tofile("myfile.dat")   

In [92]:
a = np.fromfile('myfile.dat', dtype=float)
print(a)

[ 2.  4.  6.  8.]


Otro ejemplo creando un fichero de texto:

In [93]:
# formato asci con notación exponencial, 
y.tofile("myfile.txt", sep='\n', format = "%e")       
                                                      # separador es el intro
b = np.fromfile('myfile.txt', dtype=float, sep='\n')
print(b)

[ 2.  4.  6.  8.]


## Algebra lineal

NumPy también proporciona operaciones del álgebra lineal como por ejemplo la multiplicación de matrices, el determinante, etc. 

* Las operaciones del álgebra lineal están contenidas en los módulos  __scipy.linalg__ y __numpy.linalg__

In [94]:
from numpy.linalg import inv

In [95]:
a = np.array([[1, 2], [3,5], [8,1]])
b = np.array([ 2, 6])
producto = a.dot(b)                         # Producto de matrices
producto

array([14, 36, 22])

In [96]:
mat = y.T                              # Transpuesta de una matriz
mat

array([ 2.,  4.,  6.,  8.])

In [None]:
inv(y)                            #  inversa de una matriz cuadrada

In [None]:
det(mat)                       # determinante

### La clase MATRIX

Para el caso bidimensional, no utilizaremos la clase array, si no la clase  matrix, teniendo en cuenta que sólo es útil en el caso bidimensional. Esta clase cambia los métodos correspondientes a la multiplicación y la potencia para que sea su equivalente matricial, y no el escalar.

Podemos generar una matriz a partir de un array utilizando el método `asmatrix()` o crear una matriz con el método `matrix` igual que hacíamos con el método `array`:

In [None]:
a = np.array([[5,6],[1,2]], dtype= float32)
m = np.asmatrix(a)  
m

In [None]:
m = np.matrix('1 2; 3 4', dtype=double)
m

In [None]:
a = np.matrix([[8,9], [8,5]])
a

## Referencias:


* http://wiki.scipy.org/Tentative_NumPy_Tutorial
* http://wiki.scipy.org/SciPy
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)

* http://matplotlib.org/gallery.html
* http://nbviewer.ipython.org/github/mbakker7/exploratory_computing_with_python/tree/master/

<img src="../iconos/Cute-Ball-Go-icon.png" alt="Smiley face" height="42" width="42" align: "right">