# Introducción a  Numpy

Uno de los módulos más importantes de Python es **[Numpy](http://www.numpy.org/)**.

Numpy es el encargado de añadir toda la capacidad matemática y vectorial a Python haciendo posible operar con cualquier dato numérico o array (posteriormente veremos qué es un array). 

## ¿Porqué usar Numpy?

En múltiples ocasiones necesitamos hacer operaciones numéricas sobre datos provenientes de archivos Excel o Bases de datos que contienen múltiples campos (columnas) y múltiples registros (filas).

Vimos que en Python existen las listas, tuplas y diccionarios, las cuales son de gran ayuda para almacenar y adminsitrar datos. Veamos qué sucede cuando queremos sumar los elementos almacenados en dos listas.

In [2]:
x=[1,2,3,4]
y=[5,6,7,8]
print(x+y)

[1, 2, 3, 4, 5, 6, 7, 8]


Como podemos notar, el operador + simplemente concatena las dos listas.
¿Alguien sugiere como podriamos sumar los elementos de las dos listas, elemento por elemento?

In [3]:
suma=[]
for i in range(4):
    suma.append(x[i]+y[i])
    
print(suma)

[6, 8, 10, 12]


## Cómo importar el paquete Numpy

Partimos importando el paquete numpy usando la función import. En este caso usaremos el alias np para referirnos de manera más abreviada a las clases y  métodos implementados en numpy.

In [4]:
import numpy

In [5]:
import numpy as np
print(np.__version__)

1.13.3


In [6]:
help(np)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.


## Definición de arreglos en Numpy

In [7]:
# Definir un arreglo 1D

x = np.array([1,2,3,4])
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[1 2 3 4]
type(x):  <class 'numpy.ndarray'>
x.dtype:  int32
x.size:  4
x.shape:  (4,)


In [8]:
# Definir un arreglo 1D como tipo de dato de punto flotante

x = np.array([1,2,3,4], dtype=np.float32)
print(x)
print('type(x): ', type(x))
print('x.dtype: ', x.dtype)
print('x.size: ', x.size)
print('x.shape: ', x.shape)

[ 1.  2.  3.  4.]
type(x):  <class 'numpy.ndarray'>
x.dtype:  float32
x.size:  4
x.shape:  (4,)


In [9]:
# Sumar los arreglos x e y
y = np.array([5,6,7,8])
print('x: ', x)
print('y: ', y)
print('Suma: ', x+y)

x:  [ 1.  2.  3.  4.]
y:  [5 6 7 8]
Suma:  [  6.   8.  10.  12.]


In [10]:
# Definir un arreglo 2D
x= np.array([[1,2,3,4],[5,6,7,8]])
print(x)
print(type(x))
print(x.size)
print(x.shape)

[[1 2 3 4]
 [5 6 7 8]]
<class 'numpy.ndarray'>
8
(2, 4)


In [11]:
x[0:2,0:3]

array([[1, 2, 3],
       [5, 6, 7]])

**See Figure 1 for an illustration of indexing on a 2D array.**<br />
<img src="images/numpy_indexing.png" width="400">

In [12]:
# Inicializar un arreglo 1D y otro 2D con ceros. Notar que usamos Y por X
x=np.zeros(10)
print('x: ', x)

x:  [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]


In [13]:
y=np.zeros([2,4])
print(y)

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]


In [14]:
# Crear un arreglo usando valores aleatorios entre 0 y 1
x=np.random.random(20)
print(x)

[ 0.2846045   0.87528312  0.72192501  0.29829333  0.59535142  0.30194413
  0.29681136  0.72040417  0.66058244  0.25956626  0.93014222  0.44813946
  0.50128134  0.88073287  0.13357484  0.22594432  0.76556647  0.45802378
  0.36577075  0.32709069]


In [15]:
# Extraer valores de un arreglo Numpy usando indices

x= np.array([[1,2,3,4],
            [5,6,7,8],
             [9,10,11,12]])
print(x)

print('\nx[0,3]: ', x[0,3])

print('\nx[:,0]: ', x[:,0])
print('\nx[0,:]: ', x[0,:])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

x[0,3]:  4

x[:,0]:  [1 5 9]

x[0,:]:  [1 2 3 4]


In [16]:
x

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [17]:
# Numpy permite crear máscaras fácilmente usando condiciones booleanas
a=x>6
print(a)

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]


In [18]:
# Extraer los valores de x que satisfacen la condición booleana. Para ello usamos la máscara
print(x[a])

[ 7  8  9 10 11 12]


**See Figure 2 for an illustration of boolean indexing on a 2D array.**<br />
<img src="images/boolean_indexing.png" width="400">

In [19]:
x.shape

(3, 4)

In [20]:
# Sumar 

In [21]:
x

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [22]:
# Sumar los valores de un arreglo 2D a lo largo del eje Y (columnas)
np.sum(x, axis=0)

array([15, 18, 21, 24])

In [23]:
# Sumar los valores de un arrego 2D a lo largo del eje X (filas)
np.sum(x, axis=1)

array([10, 26, 42])

In [24]:
# Crear la transpuesta de la matriz x
y= x.T
print(y, y.shape)

[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]] (4, 3)


## Funciones matemáticas

In [43]:
x=np.random.random(1000)
#print(x)
print('Media: ', np.mean(x))
print('Desviación Estandar: ', np.std(x))

Media:  0.516360743188
Desviación Estandar:  0.288425779362


In [44]:
x=np.random.randn(1000)
print('Media: ', np.mean(x))
print('Desviación Estandar: ', np.std(x))

Media:  -0.0159822037709
Desviación Estandar:  0.9688393075


In [47]:
# También es posible importar algunas funciones directamente desde las librerías
# Para ello usamos la sintaxis from <nombre_libreria> import <nombre_funcion>
from numpy.random import random

In [70]:
random(100)

array([ 0.32892891,  0.80367649,  0.92083162,  0.07544028,  0.97624825,
        0.21807605,  0.16293449,  0.42871114,  0.79896427,  0.88164432,
        0.65931675,  0.73134637,  0.2196565 ,  0.03336017,  0.83127203,
        0.43941271,  0.60697258,  0.55085357,  0.0475723 ,  0.33275042,
        0.68234478,  0.86503805,  0.46508965,  0.63703927,  0.58611295,
        0.6436661 ,  0.65552434,  0.35129071,  0.42481017,  0.33604407,
        0.86584805,  0.25352498,  0.80675202,  0.36299459,  0.05275205,
        0.64542391,  0.74521129,  0.79355451,  0.47663269,  0.69071252,
        0.62596407,  0.49969834,  0.57098796,  0.38755026,  0.88801093,
        0.75036705,  0.82068506,  0.46815103,  0.36278167,  0.82613914,
        0.32780785,  0.06726349,  0.40549258,  0.34715284,  0.46792651,
        0.30954639,  0.78597057,  0.20827519,  0.22341133,  0.70529088,
        0.0102539 ,  0.09352274,  0.72025186,  0.27725522,  0.53036603,
        0.18892182,  0.81711865,  0.13493952,  0.89494961,  0.72

In [71]:
# Crear un arreglo de enteros que comience en 0 y termine en 10 (no incluído)
x=np.arange(0,10)
print(x)

[0 1 2 3 4 5 6 7 8 9]


In [72]:
# Crear un arreglo de punto flotante que comience en 0 y termine en 10, con paso de 0.5
x=np.arange(0,10,0.5, dtype=np.float64)
print(x)
print(x.dtype)

[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.
  7.5  8.   8.5  9.   9.5]
float64


In [77]:
# Usar funciones trigonométricas
# Numpy contiene una serie de constantes matemáticas. Usaremos Pi
print(x[3:8])
x_expo = np.exp(x[3:8])
x_log = np.log(x[3:8])
print(x_expo)
print(x_log)

[ 1.5  2.   2.5  3.   3.5]
[  4.48168907   7.3890561   12.18249396  20.08553692  33.11545196]
[ 0.40546511  0.69314718  0.91629073  1.09861229  1.25276297]


In [80]:
# Usar funciones como potencia
y=np.power(x,2) # elevar cada elemento del arreglo x, a la segunda potencia
print(y)

[  0.     0.25   1.     2.25   4.     6.25   9.    12.25  16.    20.25  25.
  30.25  36.    42.25  49.    56.25  64.    72.25  81.    90.25]


In [81]:
# Usar funciones como raíz cuadrada
y=np.sqrt(x) # raíz de a, del inglés "square root"
print(y)

[ 0.          0.70710678  1.          1.22474487  1.41421356  1.58113883
  1.73205081  1.87082869  2.          2.12132034  2.23606798  2.34520788
  2.44948974  2.54950976  2.64575131  2.73861279  2.82842712  2.91547595
  3.          3.082207  ]


Escribir *np.sqrt(x)* es mucho más breve que la alternativa de usar funciones nativas de Python: Calcular una a una las raíces cuadradas de cada elemento de *x*.

In [3]:
import pandas as pd
df = pd.DataFrame([ [1,2],[5,6] ], columns = ["col_1", "col_2"])
df

Unnamed: 0,col_1,col_2
0,1,2
1,5,6
