# Introducción a  Numpy

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

Uno de los módulos más importantes de Python es **[Numpy](http://www.numpy.org/)**. El origen de Numpy se debe principalmente al diseñador de software Jim Hugunin quien diseñó el módulo Numeric para dotar a Python de capacidades de cálculo similares a las de otros softwares como MATLAB. Posteriormente, mejoró Numeric incorporando nuevas funcionalidades naciendo lo que hoy conocemos como Numpy.

Numpy es el encargado de añadir toda la capacidad matemática y vectorial a Python haciendo posible operar con cualquier dato numérico o array (posteriormente veremos qué es un array). Incorpora operaciones tan básicas como la suma o la multiplicación u otras mucho más complejas como la transformada de Fourier o el álgebra lineal. Además incorpora herramientas que nos permiten incorporar código fuente de otros lenguajes de programación como C/C++ o Fortran lo que incrementa notablemente su compatibilidad e implementación.


## ¿Porqué usar Numpy?

En múltiples ocasiones necesitamos hacer operaciones numéricas sobre datos provenientes de archivos Excel o Bases de datos que contienen múltiples campos (columnas) y múltiples registros (filas).

Vimos que en Python existen las listas, tuplas y diccionarios, las cuales son de gran ayuda para almacenar y adminsitrar datos. Veamos qué sucede cuando queremos sumar los elementos almacenados en dos listas.

In [1]:
x=[1,2,3,4]
y=[5,6,7,8]
print(x+y)

[1, 2, 3, 4, 5, 6, 7, 8]


Como podemos notar, el operador + simplemente concatena las dos listas.
¿Alguien sugiere como podriamos sumar los elmentos de las dos listas, elemento por elemento?

In [2]:
res=[]
for i in range(4):
    res.append(x[i]+y[i])
    
print(res)

[6, 8, 10, 12]


## Cómo importar el paquete Numpy

Partimos importando el paquete numpy usando la función import. En este caso usaremos el alias np para referirnos de manera más abreviada a las clases y  métodos implementados en numpy.

In [3]:
import numpy

In [4]:
import numpy as np
print(np.__version__)

1.13.3


In [5]:
help(np)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.


## Definición de arreglos en Numpy

In [6]:
# Definir un arreglo 1D

x = np.array([[1,2,3,4],[5,6,7,8]])
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[[1 2 3 4]
 [5 6 7 8]]
type(x):  <class 'numpy.ndarray'>
x.dtype:  int64
x.size:  8
x.shape:  (2, 4)


In [7]:
# Definir un arreglo 1D como tipo de dato de punto flotante

x = np.array([1,2,3,4], dtype=np.float32)
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[ 1.  2.  3.  4.]
type(x):  <class 'numpy.ndarray'>
x.dtype:  float32
x.size:  4
x.shape:  (4,)


In [8]:
# Sumar los arreglos x e y
y = np.array([5,6,7,8])
print('x: ', x)
print('y: ', y)
print('Suma: ', x+y)

x:  [ 1.  2.  3.  4.]
y:  [5 6 7 8]
Suma:  [  6.   8.  10.  12.]


In [9]:
# Definir un arreglo 2D

x= np.array([[1,2,3,4],[5,6,7,8]])
print(x)
print(type(x))
print(x.size)
print(x.shape)

[[1 2 3 4]
 [5 6 7 8]]
<class 'numpy.ndarray'>
8
(2, 4)


In [10]:
x[0:2,0:3]

array([[1, 2, 3],
       [5, 6, 7]])

**See Figure 1 for an illustration of indexing on a 2D array.**<br />
<img src="images/numpy_indexing.png" width="400">

In [11]:
# Inicializar un arreglo 1D y otro 2D con ceros. Notar que usamos Y por X

x=np.zeros(10)
print('x: ', x)

y=np.zeros([2,4])
print('y:', y)

x:  [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
y: [[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]


In [12]:
# Crear un arreglo usando valores aleatorios entre 0 y 1

x=np.random.random(100)
print(x)

[ 0.73926851  0.11473639  0.37088776  0.43945536  0.83440559  0.53022378
  0.52455149  0.57880582  0.27502712  0.43475714  0.51994183  0.50988842
  0.56187807  0.36986869  0.57595122  0.92095389  0.4225486   0.81421703
  0.51661524  0.47833252  0.58577896  0.32894398  0.58151882  0.98168211
  0.42588015  0.82537563  0.18002079  0.66461639  0.46778583  0.65144369
  0.63945793  0.89308326  0.15513044  0.33262435  0.8136705   0.48405356
  0.03720531  0.02165298  0.3040792   0.85541855  0.76033978  0.13787335
  0.84037706  0.34078624  0.01772856  0.6345478   0.90203023  0.64199139
  0.68019032  0.47092847  0.93853027  0.28991906  0.21066371  0.15533964
  0.62975638  0.14527755  0.55628802  0.99530432  0.75240186  0.57257417
  0.76254686  0.78171484  0.59762733  0.29726701  0.14440671  0.04210246
  0.88840673  0.04298589  0.30246314  0.33348978  0.70250305  0.24102694
  0.44720109  0.48360861  0.93810384  0.87987036  0.61494445  0.83779452
  0.20542033  0.29368944  0.47831599  0.61127952  0

In [13]:
# Extraer valores de un arreglo Numpy usando indices

x= np.array([[1,2,3,4],
            [5,6,7,8],
             [9,10,11,12]])
print(x)

print('\nx[0,3]: ', x[0,3])

print('\nx[:,0]: ', x[:,0])
print('\nx[0,:]: ', x[0,:])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

x[0,3]:  4

x[:,0]:  [1 5 9]

x[0,:]:  [1 2 3 4]


In [14]:
# Numpy permite crear máscaras fácilmente usando condiciones booleanas

a=x>6
print(a)

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]


In [15]:
# Extraer los valores de x que satisfacen la condición booleana. Para ello usamos la máscara

print(x[a])

[ 7  8  9 10 11 12]


**See Figure 2 for an illustration of boolean indexing on a 2D array.**<br />
<img src="images/boolean_indexing.png" width="400">

In [16]:
x.shape

(3, 4)

In [17]:
# Sumar los valores de un arreglo 2D a lo largo del eje Y (columnas)

np.sum(x, axis=0)

array([15, 18, 21, 24])

In [18]:
# Sumar los valores de un arrego 2D a lo largo del eje X (filas)

np.sum(x, axis=1)

array([10, 26, 42])

In [19]:
# Crear la transpuesta de la matriz x

y= x.T
print(y, y.shape)


[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]] (4, 3)


## Funciones matemáticas

In [23]:
x=np.random.random(1000)
#print(x)
print('Mean: ', np.mean(x))
print('StdDev: ', np.std(x))

Mean:  0.492190015794
StdDev:  0.294716342357


In [25]:
x=np.random.randn(1000)
print('Mean: ', np.mean(x))
print('StdDev: ', np.std(x))

Mean:  0.0190993309608
StdDev:  1.00050180752


In [26]:
# También es posible importar algunas funciones directamente desde las librerías
# Para ello usamos la sintaxis from <nombre_libreria> import <nombre_funcion>

from numpy.random import random

In [27]:
random(100)

array([  3.84633666e-01,   2.65525405e-01,   5.81052053e-02,
         4.56509695e-01,   6.53703395e-01,   5.39579716e-01,
         6.19478503e-01,   1.71207310e-01,   4.38585313e-01,
         9.57525892e-01,   3.83767820e-01,   3.06310987e-01,
         5.06350263e-01,   6.08563379e-01,   8.51263591e-02,
         7.00184575e-01,   5.15866542e-01,   6.43557373e-01,
         3.86006578e-01,   9.86573895e-01,   1.80621494e-01,
         5.89229584e-02,   6.10065694e-04,   5.40597457e-01,
         6.31389367e-01,   1.98030212e-01,   6.60640678e-01,
         2.35530139e-01,   6.29351014e-01,   8.22125157e-01,
         9.00191145e-02,   1.20698235e-01,   8.84534839e-01,
         6.41398052e-01,   2.40558859e-01,   4.15128861e-01,
         8.89625425e-01,   6.02287270e-01,   5.51655809e-01,
         7.36846050e-01,   2.30148885e-01,   9.64455318e-02,
         3.85289247e-01,   5.49656485e-01,   9.99467819e-01,
         3.36334333e-01,   5.20410538e-01,   1.00366485e-01,
         4.95430906e-01,

In [28]:
# Crear un arreglo de enteros que comience en 0 y termine en 10 (no incluído)

x=np.arange(0,10)
print(x)

[0 1 2 3 4 5 6 7 8 9]


In [29]:
# Crear un arreglo de punto flotante que comience en 0 y termine en 10, con paso de 0.5

x=np.arange(0,10,0.5, dtype=np.float64)
print(x)
print(x.dtype)

[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.
  7.5  8.   8.5  9.   9.5]
float64


In [31]:
# Usar funciones trigonométricas
# Numpy contiene una serie de constantes matemáticas. Usaremos Pi

y=np.sin(x*np.pi)
print(y)

[  0.00000000e+00   1.00000000e+00   1.22464680e-16  -1.00000000e+00
  -2.44929360e-16   1.00000000e+00   3.67394040e-16  -1.00000000e+00
  -4.89858720e-16   1.00000000e+00   6.12323400e-16  -1.00000000e+00
  -7.34788079e-16   1.00000000e+00   8.57252759e-16  -1.00000000e+00
  -9.79717439e-16   1.00000000e+00   1.10218212e-15  -1.00000000e+00]


In [32]:
# Usar funciones como potencia

y=np.power(x,2) # elevar cada elemento del arreglo x, a la segunda potencia
print(y)

[  0.     0.25   1.     2.25   4.     6.25   9.    12.25  16.    20.25  25.
  30.25  36.    42.25  49.    56.25  64.    72.25  81.    90.25]


In [33]:
# Usar funciones como raíz cuadrada

y=np.sqrt(x) # raíz de a, del inglés "square root"
print(y)

[ 0.          0.70710678  1.          1.22474487  1.41421356  1.58113883
  1.73205081  1.87082869  2.          2.12132034  2.23606798  2.34520788
  2.44948974  2.54950976  2.64575131  2.73861279  2.82842712  2.91547595
  3.          3.082207  ]


Escribir *np.sqrt(x)* es mucho más breve que la alternativa de usar funciones nativas de Python: Calcular una a una las raíces cuadradas de cada elemento de *x*.

In [34]:
result = []
for el in x:
    result.append(el**0.5)

print("\nUsando Python built-in: ", result)
print("\nUsando Numpy: ", y)


Usando Python built-in:  [0.0, 0.70710678118654757, 1.0, 1.2247448713915889, 1.4142135623730951, 1.5811388300841898, 1.7320508075688772, 1.8708286933869707, 2.0, 2.1213203435596424, 2.2360679774997898, 2.3452078799117149, 2.4494897427831779, 2.5495097567963922, 2.6457513110645907, 2.7386127875258306, 2.8284271247461903, 2.9154759474226504, 3.0, 3.082207001484488]

Usando Numpy:  [ 0.          0.70710678  1.          1.22474487  1.41421356  1.58113883
  1.73205081  1.87082869  2.          2.12132034  2.23606798  2.34520788
  2.44948974  2.54950976  2.64575131  2.73861279  2.82842712  2.91547595
  3.          3.082207  ]
