# Introducción a  Numpy

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

Uno de los módulos más importantes de Python es **[Numpy](http://www.numpy.org/)**. El origen de Numpy se debe principalmente al diseñador de software Jim Hugunin quien diseñó el módulo Numeric para dotar a Python de capacidades de cálculo similares a las de otros softwares como MATLAB. Posteriormente, mejoró Numeric incorporando nuevas funcionalidades naciendo lo que hoy conocemos como Numpy.

Numpy es el encargado de añadir toda la capacidad matemática y vectorial a Python haciendo posible operar con cualquier dato numérico o array (posteriormente veremos qué es un array). Incorpora operaciones tan básicas como la suma o la multiplicación u otras mucho más complejas como la transformada de Fourier o el álgebra lineal. Además incorpora herramientas que nos permiten incorporar código fuente de otros lenguajes de programación como C/C++ o Fortran lo que incrementa notablemente su compatibilidad e implementación.


## ¿Porqué usar Numpy?

En múltiples ocasiones necesitamos hacer operaciones numéricas sobre datos provenientes de archivos Excel o Bases de datos que contienen múltiples campos (columnas) y múltiples registros (filas).

Vimos que en Python existen las listas, tuplas y diccionarios, las cuales son de gran ayuda para almacenar y adminsitrar datos. Veamos qué sucede cuando queremos sumar los elementos almacenados en dos listas.

In [1]:
x=[1,2,3,4]
y=[5,6,7,8]
print(x+y)

[1, 2, 3, 4, 5, 6, 7, 8]


Como podemos notar, el operador + simplemente concatena las dos listas.
¿Alguien sugiere como podriamos sumar los elmentos de las dos listas, elemento por elemento?

In [2]:
res=[]
for i in range(4):
    res.append(x[i]+y[i])
    
print(res)

[6, 8, 10, 12]


## Cómo importar el paquete Numpy

Partimos importando el paquete numpy usando la función import. En este caso usaremos el alias np para referirnos de manera más abreviada a las clases y  métodos implementados en numpy.

In [3]:
import numpy

In [8]:
import numpy as np
print(np.__version__)

1.13.3


In [5]:
help(np)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.


## Definición de arreglos en Numpy

In [43]:
import numpy as np
#creo una lista
x = [1,2,3,4]
# lo convierto a un arreglo
np.array[x]

TypeError: 'builtin_function_or_method' object is not subscriptable

In [44]:
# Definir un arreglo 1D

x = np.array([[1,2,3,4],[5,6,7,8]])
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[[1 2 3 4]
 [5 6 7 8]]
type(x):  <class 'numpy.ndarray'>
x.dtype:  int32
x.size:  8
x.shape:  (2, 4)


In [45]:
# Definir un arreglo 1D como tipo de dato de punto flotante

x = np.array([1,2,3,4], dtype=np.float32)
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[ 1.  2.  3.  4.]
type(x):  <class 'numpy.ndarray'>
x.dtype:  float32
x.size:  4
x.shape:  (4,)


In [None]:
# Sumar los arreglos x e y
y = np.array([5,6,7,8])
print('x: ', x)
print('y: ', y)
print('Suma: ', x+y)

In [None]:
# Definir un arreglo 2D

x= np.array([[1,2,3,4],[5,6,7,8]])
print(x)
print(type(x))
print(x.size)
print(x.shape)

In [None]:
x[0:2,0:3]

**See Figure 1 for an illustration of indexing on a 2D array.**<br />
<img src="images/numpy_indexing.png" width="400">

In [13]:
# Inicializar un arreglo 1D y otro 2D con ceros. Notar que usamos Y por X

x=np.zeros(10)
print('x: ', x)



x:  [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]


In [15]:
#crea una matriz de 2 x 4 llena de ceros
y=np.zeros([2,4])
print('y:', y)

y: [[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]


In [16]:
# Crear un arreglo usando valores aleatorios entre 0 y 1
#en el ejemplo usamos el modulo random np.random ( y llamamos a la funcion random [random.random])

x=np.random.random(100)
print(x)

[ 0.65808899  0.47933713  0.56218995  0.08316312  0.9703593   0.91256046
  0.28583344  0.91549493  0.62513945  0.68079058  0.97997493  0.98612958
  0.71846047  0.54188475  0.9700548   0.24467974  0.34742879  0.97592453
  0.36399275  0.03372885  0.21908879  0.20370196  0.15741511  0.88014038
  0.9530411   0.07106175  0.75634326  0.38896965  0.04430522  0.21262789
  0.89418313  0.36860152  0.94884087  0.70614811  0.7402545   0.75824677
  0.75795292  0.14236372  0.32271251  0.13571367  0.81094582  0.25684864
  0.74379103  0.66716967  0.69157692  0.20795592  0.98103172  0.16195789
  0.52919943  0.3388473   0.7313846   0.53043758  0.52536267  0.14820193
  0.43853324  0.96566053  0.76913846  0.934004    0.89955928  0.46934475
  0.92033183  0.43945428  0.81708946  0.3806422   0.69834037  0.14416499
  0.40652581  0.19639656  0.99556531  0.47013197  0.74331465  0.06223319
  0.53045269  0.0283605   0.11507632  0.027362    0.39859155  0.46973874
  0.75191133  0.16772356  0.70903702  0.95316942  0

In [None]:
# Extraer valores de un arreglo Numpy usando indices

x= np.array([[1,2,3,4],
            [5,6,7,8],
             [9,10,11,12]])
print(x)

print('\nx[0,3]: ', x[0,3])

print('\nx[:,0]: ', x[:,0])
print('\nx[0,:]: ', x[0,:])

In [None]:
# Numpy permite crear máscaras fácilmente usando condiciones booleanas

a=x>6
print(a)

In [None]:
# Extraer los valores de x que satisfacen la condición booleana. Para ello usamos la máscara

print(x[a])

**See Figure 2 for an illustration of boolean indexing on a 2D array.**<br />
<img src="images/boolean_indexing.png" width="400">

In [19]:
x.shape

(100,)

In [57]:
# Sumar los valores de un arreglo 2D a lo largo del eje Y (columnas)

np.sum(x, axis=0)


10.0

In [None]:
# Sumar los valores de un arrego 2D a lo largo del eje X (filas)

np.sum(x, axis=1)

In [20]:
# Crear la transpuesta de la matriz x

y= x.T
print(y, y.shape)


[ 0.65808899  0.47933713  0.56218995  0.08316312  0.9703593   0.91256046
  0.28583344  0.91549493  0.62513945  0.68079058  0.97997493  0.98612958
  0.71846047  0.54188475  0.9700548   0.24467974  0.34742879  0.97592453
  0.36399275  0.03372885  0.21908879  0.20370196  0.15741511  0.88014038
  0.9530411   0.07106175  0.75634326  0.38896965  0.04430522  0.21262789
  0.89418313  0.36860152  0.94884087  0.70614811  0.7402545   0.75824677
  0.75795292  0.14236372  0.32271251  0.13571367  0.81094582  0.25684864
  0.74379103  0.66716967  0.69157692  0.20795592  0.98103172  0.16195789
  0.52919943  0.3388473   0.7313846   0.53043758  0.52536267  0.14820193
  0.43853324  0.96566053  0.76913846  0.934004    0.89955928  0.46934475
  0.92033183  0.43945428  0.81708946  0.3806422   0.69834037  0.14416499
  0.40652581  0.19639656  0.99556531  0.47013197  0.74331465  0.06223319
  0.53045269  0.0283605   0.11507632  0.027362    0.39859155  0.46973874
  0.75191133  0.16772356  0.70903702  0.95316942  0

## Funciones matemáticas

In [25]:
x=np.random.random(1000)
#print(x)
print('Mean: ', np.mean(x)) #calcula el promedio
print('StdDev: ', np.std(x)) #calcula la desviacion estandar

Mean:  0.494577503674
StdDev:  0.292145380083


In [22]:
x=np.random.randn(1000)
print('Mean: ', np.mean(x))
print('StdDev: ', np.std(x))

Mean:  0.0527265083846
StdDev:  0.968803588192


In [23]:
# También es posible importar algunas funciones directamente desde las librerías
# Para ello usamos la sintaxis from <nombre_libreria> import <nombre_funcion>

from numpy.random import random

In [24]:
random(100)

array([ 0.38760497,  0.7733742 ,  0.04503078,  0.58427117,  0.57767688,
        0.79054731,  0.28223093,  0.50843586,  0.51505065,  0.12897384,
        0.14707895,  0.33180921,  0.5526053 ,  0.09864696,  0.90574478,
        0.3878045 ,  0.0415066 ,  0.81860438,  0.52560338,  0.56839495,
        0.08651488,  0.79160059,  0.51128308,  0.02577938,  0.55026723,
        0.67177822,  0.17418821,  0.29821099,  0.4838073 ,  0.35904516,
        0.96882692,  0.77350444,  0.36844304,  0.32942088,  0.80912528,
        0.08947383,  0.88397636,  0.54141027,  0.21418762,  0.29284414,
        0.50188064,  0.02230725,  0.61988346,  0.19154279,  0.57379998,
        0.94955581,  0.87847437,  0.04853016,  0.90675615,  0.82937286,
        0.40946577,  0.67179405,  0.77748344,  0.27316124,  0.55727131,
        0.18003906,  0.44451673,  0.86213084,  0.02743237,  0.85559746,
        0.36387986,  0.29273102,  0.80547944,  0.96360931,  0.79692688,
        0.57262914,  0.21592149,  0.09260759,  0.65721399,  0.92

In [None]:
# Crear un arreglo de enteros que comience en 0 y termine en 10 (no incluído)

x=np.arange(0,10)
print(x)

In [None]:
# Crear un arreglo de punto flotante que comience en 0 y termine en 10, con paso de 0.5

x=np.arange(0,10,0.5, dtype=np.float64)
print(x)
print(x.dtype)

In [None]:
# Usar funciones trigonométricas
# Numpy contiene una serie de constantes matemáticas. Usaremos Pi

y=np.sin(x*np.pi)
print(y)

In [None]:
# Usar funciones como potencia

y=np.power(x,2) # elevar cada elemento del arreglo x, a la segunda potencia
print(y)

In [None]:
# Usar funciones como raíz cuadrada

y=np.sqrt(x) # raíz de a, del inglés "square root"
print(y)

Escribir *np.sqrt(x)* es mucho más breve que la alternativa de usar funciones nativas de Python: Calcular una a una las raíces cuadradas de cada elemento de *x*.

In [None]:
result = []
for el in x:
    result.append(el**0.5)

print("\nUsando Python built-in: ", result)
print("\nUsando Numpy: ", y)

---

# Ejercicios

Realice los siguientes ejercicios. En caso de tener dudas, puede apoyarse con sus compañeros, preguntarle al profesor y hacer búsquedas en internet.

1. Cree una matriz de 7 columnas por 9 filas. Las primeras 3 columnas de la matriz tienen que tener el valor 0. La cuarta columna debe tener el valor 0.5, excepto por el último valor de esa columna, que tiene que ser 0.7. Las otras tres columnas deben tener el valor 1.

    Imprima la matriz y calcule las suma de los elementos de la última fila

In [59]:
import numpy as np
k = 8 * [[0,0,0,0.5,1,1]] + [[0,0,0,0.7,1,1]]
print(k)
np.array(k)
np.sum(k[8:])

[[0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.5, 1, 1], [0, 0, 0, 0.7, 1, 1]]


2.7000000000000002

2. La siguienteinstrucción crea una matriz aleatoria de 5 por 5 con valores entre 0 y 1
    `matriz_aleatoria=np.random.rand(5,5)` 

    Imprima las posiciones (Fila y columna) de los elementos de la matriz que son mayores que 0.5

In [None]:
matriz_aleatoria=np.random.rand(5,5)
print(matriz_aleatoria)