# Introducción a  Numpy

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />

Uno de los módulos más importantes de Python es **[Numpy](http://www.numpy.org/)**. El origen de Numpy se debe principalmente al diseñador de software Jim Hugunin quien diseñó el módulo Numeric para dotar a Python de capacidades de cálculo similares a las de otros softwares como MATLAB. Posteriormente, mejoró Numeric incorporando nuevas funcionalidades naciendo lo que hoy conocemos como Numpy.

Numpy es el encargado de añadir toda la capacidad matemática y vectorial a Python haciendo posible operar con cualquier dato numérico o array (posteriormente veremos qué es un array). Incorpora operaciones tan básicas como la suma o la multiplicación u otras mucho más complejas como la transformada de Fourier o el álgebra lineal. Además incorpora herramientas que nos permiten incorporar código fuente de otros lenguajes de programación como C/C++ o Fortran lo que incrementa notablemente su compatibilidad e implementación.


## ¿Porqué usar Numpy?

En múltiples ocasiones necesitamos hacer operaciones numéricas sobre datos provenientes de archivos Excel o Bases de datos que contienen múltiples campos (columnas) y múltiples registros (filas).

Vimos que en Python existen las listas, tuplas y diccionarios, las cuales son de gran ayuda para almacenar y adminsitrar datos. Veamos qué sucede cuando queremos sumar los elementos almacenados en dos listas.

In [1]:
x=[1,2,3,4]
y=[5,6,7,8]

print(x+y)

[1, 2, 3, 4, 5, 6, 7, 8]


Como podemos notar, el operador + simplemente concatena las dos listas.
¿Alguien sugiere como podriamos sumar los elmentos de las dos listas, elemento por elemento?

In [2]:
res=[]
for i in range(4):
    res.append(x[i]+y[i])
    
print(res)

[6, 8, 10, 12]


## Cómo importar el paquete Numpy

Partimos importando el paquete numpy usando la función import. En este caso usaremos el alias np para referirnos de manera más abreviada a las clases y  métodos implementados en numpy.

In [3]:
import numpy

In [4]:
import numpy as np
print(np.__version__)

1.16.2


In [5]:
help(np)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



## Definición de arreglos en Numpy

In [6]:
x= np.array([1,2,3])
x

array([1, 2, 3])

In [7]:
x.shape

(3,)

In [8]:
x.size

3

In [18]:
x = np.array([[1,2,3,4],[5,6,7,8]])
x

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [19]:
x[0]

array([1, 2, 3, 4])

In [20]:
x[1]

array([5, 6, 7, 8])

In [21]:
x[0]+x[1]

array([ 6,  8, 10, 12])

In [22]:
x.shape

(2, 4)

In [12]:
x.size

8

In [23]:
# Definir un arreglo 2D

x = np.array([[1,2,3,4],[5,6,7,8]])

print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[[1 2 3 4]
 [5 6 7 8]]
type(x):  <class 'numpy.ndarray'>
x.dtype:  int64
x.size:  8
x.shape:  (2, 4)


In [24]:
# Definir un arreglo 1D como tipo de dato de punto flotante

x = np.array([1,2,3,4], dtype=np.float32)
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[1. 2. 3. 4.]
type(x):  <class 'numpy.ndarray'>
x.dtype:  float32
x.size:  4
x.shape:  (4,)


In [26]:
x = np.array([1,2,3,4], dtype=np.float32)
y = np.array([5,6,7,8])

print(x.dtype)
print(y.dtype)

float32
int64


In [35]:
y = np.array([5,6,7,8])
print(y)
print(y.shape)

[5 6 7 8]
(4,)


In [40]:
y = np.array([[5,6,7,8]])
print(y)
print(y.shape)

[[5 6 7 8]]
(1, 4)


In [37]:
z=y.T
z.shape

(4,)

In [48]:
# Sumar los arreglos x e y
x = np.array([[1,2,3,4]], dtype=np.float32)
y = np.array([[5,6,7,8]])

print('x: ', x)
print('y: ', y.T)
print('Suma: ', x*y.T)

x:  [[1. 2. 3. 4.]]
y:  [[5]
 [6]
 [7]
 [8]]
Suma:  [[ 5. 10. 15. 20.]
 [ 6. 12. 18. 24.]
 [ 7. 14. 21. 28.]
 [ 8. 16. 24. 32.]]


In [49]:
x = np.array([1,2,3,4], dtype=np.float32)
y = np.array([5,6,7,8])

print(x.shape)
print(y.shape)

print( np.dot(x, y) )

(4,)
(4,)
70.0


In [50]:
x+10

array([11., 12., 13., 14.], dtype=float32)

In [None]:
x = np.array([[1,2,3,4],[5,6,7,8]])
y = np.array([5,6,7,8])

print(x.shape)
print(y.shape)

In [51]:
z = x*y
print(z)

[ 5. 12. 21. 32.]


In [52]:
z.shape

(4,)

In [53]:
# Definir un arreglo 2D

x= np.array([[1,2,3,4],[5,6,7,8]])
print(x)
print(type(x))
print(x.size)
print(x.shape)

[[1 2 3 4]
 [5 6 7 8]]
<class 'numpy.ndarray'>
8
(2, 4)


In [None]:
x[0,0:2]

**See Figure 1 for an illustration of indexing on a 2D array.**<br />
<img src="images/numpy_indexing.png" width="400">

In [54]:
# Inicializar un arreglo 1D y otro 2D con ceros. Notar que usamos Y por X

x=np.zeros(10)
print('x: ', x)

y=np.zeros([2,4])
print('y:', y)

x:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
y: [[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [None]:
help(np.random.seed)

In [61]:
np.random.seed()

In [64]:
# Crear un arreglo usando valores aleatorios entre 0 y 1

x=np.random.(100)
print(x)

[0.2099062  0.77015092 0.3129246  0.7742411  0.61117173 0.04844864
 0.01661944 0.00936395 0.6251985  0.50327659 0.71766586 0.02478332
 0.42359129 0.0830153  0.42435379 0.67043823 0.06483812 0.38296141
 0.94300204 0.25982883 0.55806219 0.10256981 0.24143834 0.37825097
 0.779335   0.07036047 0.38962595 0.225037   0.49136721 0.79474514
 0.74676054 0.85928435 0.54377997 0.95825366 0.15000256 0.99818599
 0.34739607 0.58469756 0.40781933 0.6760546  0.26737778 0.2887272
 0.9302087  0.93238384 0.27643326 0.47941013 0.99612863 0.519989
 0.0691286  0.42947726 0.40889438 0.90904027 0.30435493 0.88855264
 0.43340589 0.0333267  0.73265824 0.16997276 0.2898403  0.74210689
 0.11510864 0.657975   0.96228053 0.87546815 0.95057776 0.60460045
 0.6875989  0.95485022 0.87382393 0.04105241 0.48000289 0.72876932
 0.84369927 0.12853918 0.48315716 0.44365093 0.51854736 0.79178339
 0.51018584 0.15227945 0.21759704 0.10854998 0.03841219 0.9811461
 0.86798147 0.57005114 0.83441139 0.84198677 0.32371026 0.31827671

In [68]:
x=np.random.normal(10, 5, 100)
print(np.mean(x))
print(np.std(x))

9.415487928996635
4.969844335696121


In [69]:
# Extraer valores de un arreglo Numpy usando indices

x= np.array([[1,2,3,4],
            [5,6,7,8],
             [9,10,11,12]])
print(x)

print('\nx[0,3]: ', x[0,3])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

x[0,3]:  4


In [80]:
x[1,:] +  x[:,2]

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

In [82]:
np.array([x[:,2]])

array([[ 3,  7, 11]])

In [74]:
x[:,2]

array([ 3,  7, 11])

In [71]:
x[2,1]

10

In [83]:
print('\nx[:,0]: ', x[:,0])


x[:,0]:  [1 5 9]


In [None]:
y=x[:,0]
y.shape

In [84]:
x

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [85]:
# Numpy permite crear máscaras fácilmente usando condiciones booleanas

a = x>6
print(a)

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]


In [88]:
x * a

array([[ 0,  0,  0,  0],
       [ 0,  0,  7,  8],
       [ 9, 10, 11, 12]])

In [87]:
np.where(a)

(array([1, 1, 2, 2, 2, 2]), array([2, 3, 0, 1, 2, 3]))

In [None]:
# Extraer los valores de x que satisfacen la condición booleana. Para ello usamos la máscara

y=x[:]
y[~a]=0
y

In [91]:
x=[1,2,3,4,5,6,7,8,9]

In [92]:
def mayor(x):
    if x>6:
        return True
    else:
        return False

In [93]:
for i in x:
    print(mayor(i))

False
False
False
False
False
False
True
True
True


In [94]:
y = filter(lambda i: i>6, x)
list(y)

[7, 8, 9]

In [None]:
x[x>2]

**See Figure 2 for an illustration of boolean indexing on a 2D array.**<br />
<img src="images/boolean_indexing.png" width="400">

In [None]:
x.shape

In [None]:
x

In [None]:
# Sumar los valores de un arreglo 2D a lo largo del eje Y (columnas)

np.sum(x, axis=0)

In [None]:
# Sumar los valores de un arrego 2D a lo largo del eje X (filas)

np.sum(x, axis=1)

In [None]:
x

In [None]:
x.shape

In [None]:
# Crear la transpuesta de la matriz x

y = x.T
print(y, y.shape)


## Funciones matemáticas

In [None]:
x=np.random.random(10)
#print(x)
print('Mean: ', np.mean(x))
print('StdDev: ', np.std(x))

In [None]:
x=np.random.random(10000)
#print(x)
print('Mean: ', np.mean(x))
print('StdDev: ', np.std(x))

In [None]:
x=np.random.randn(10000)
print('Mean: ', np.mean(x))
print('StdDev: ', np.std(x))

In [None]:
import numpy as np

In [None]:
# También es posible importar algunas funciones directamente desde las librerías
# Para ello usamos la sintaxis from <nombre_libreria> import <nombre_funcion>

from numpy.random import random

In [None]:
random(10)

In [None]:
x=range(0,10, 0.5)
list(x)

In [None]:
# Crear un arreglo de enteros que comience en 0 y termine en 10 (no incluído)

x=np.arange(0,10)
print(x)

In [None]:
# Crear un arreglo de punto flotante que comience en 0 y termine en 10, con paso de 0.5

x=np.arange(0,10, 0.5, dtype=np.float64)
print(x)
print(x.dtype)

In [None]:
np.linspace(0,100, 6)

In [None]:
x

In [None]:
# Usar funciones trigonométricas
# Numpy contiene una serie de constantes matemáticas. Usaremos Pi

y=np.sin(x*np.pi)
print(y)

In [None]:
# Usar funciones como potencia

y=np.power(x,2) # elevar cada elemento del arreglo x, a la segunda potencia
print(y)

In [None]:
x**2

In [None]:
# Usar funciones como raíz cuadrada

y=np.sqrt(x) # raíz de a, del inglés "square root"
print(y)

In [None]:
x

In [None]:
x[10]=1000
x

In [None]:
x=np.array([[1,2,3,4]])
print(x)
print(x.shape)

In [None]:
y=np.array([x,x])
print(y)
print(y.shape)

In [None]:
from numpy import *

In [None]:
sqrt(x)

Escribir *np.sqrt(x)* es mucho más breve que la alternativa de usar funciones nativas de Python: Calcular una a una las raíces cuadradas de cada elemento de *x*.

In [None]:
result = []
for el in x:
    result.append(el**0.5)

print("\nUsando Python built-in: ", result)
print("\nUsando Numpy: ", y)

---

# Ejercicios

Realice los siguientes ejercicios. En caso de tener dudas, puede apoyarse con sus compañeros, preguntarle al profesor y hacer búsquedas en internet.

1. Cree una matriz de 7 columnas por 9 filas. Las primeras 3 columnas de la matriz tienen que tener el valor 0. La cuarta columna debe tener el valor 0.5, excepto por el último valor de esa columna, que tiene que ser 0.7. Las otras tres columnas deben tener el valor 1.

    Imprima la matriz y calcule las suma de los elementos de la última fila

2. La siguienteinstrucción crea una matriz aleatoria de 5 por 5 con valores entre 0 y 1
    `matriz_aleatoria=np.random.rand(5,5)` 

    Imprima las posiciones (Fila y columna) de los elementos de la matriz que son mayores que 0.5

In [None]:
matriz_aleatoria=np.random.rand(5,5)
print(matriz_aleatoria)