# Numpy Basics

**Numpy** es el paquete fundamental para la computacion cientifica en Python y es la base de muchos otros paquetes. Aunque sea dificil de creer, Python no fue hecho para ejecutar computaciones numericas pero cuando Python se comenzo a hacer popular en los 90's fue necesario ejecutar operaciones vectoriales mucho mas rapido de que lo Python podia hacer en ese tiempo y Numpy fue creado. Como podemos observar en la imagen Numpy es parte esencial de muchos paquetes populares en Python usados en el campo de Machine Learning. 

<img src='../data/img/numpystack.png'>

En resumen podemos conlcuir que las ventajas de Numpy son:

- Es Open Source y gratis.
- Tiene una sintaxis muy amigable.
- Es mas eficiente que las lista de Python.
- Tiene funciones muy avanzadas y esta muy bien integrado en otras librerias.

### Instalar Numpy

Para instalar numpy simplemente ejecutamos la siguiente linea de codigo:

    - pip3 install numpy
    
Si queremos una version especifica de numpy:

    - pip3 install numpy==<version>


## Numpy Arrays

Como seguramente sabes lo que hace a Numpy muy util son las matrices multidimensionales o **ndarrays**. Un ejemplo:

In [1]:
# importamos numpy, para hacer nuestro codigo mas legible lo importamos como np
import numpy as np

x = np.array([[1,2,3,],[4,5,6]])
# imprime la matriz
print('Esta es nuestra matriz: ', (x))
# imprime el tipo de objeto que es nuestra matriz
print('Nuestra matriz es del tipo: ', type(x))
# imprime las dimensiones de la matriz
print('La dimension de nuestra matriz es: ', x.shape)
# imprime el tamano de nuestra matriz
print('El tamano de nuestra matriz es: ', x.size)
# imprime la dimension de nuestra matriz
print('La dimension de nuestra matriz es: ', x.ndim)
# imprime el tipo de dato que hay dentro de nuestra matriz
print('El tipo de dato de nuestra matriz es: ', x.dtype)
# imprime el numero de bytes que hay dentro de nuestra matriz
print('El total de bytes en nuestra matriz es: ', x.nbytes)

Esta es nuestra matriz:  [[1 2 3]
 [4 5 6]]
Nuestra matriz es del tipo:  <class 'numpy.ndarray'>
La dimension de nuestra matriz es:  (2, 3)
El tamano de nuestra matriz es:  6
La dimension de nuestra matriz es:  2
El tipo de dato de nuestra matriz es:  int64
El total de bytes en nuestra matriz es:  48


Vamos a ver que sucede cuando usamos un *float*, *complex* o *uint*: 

In [2]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.float)
print(x)
print(x.nbytes)

[[1. 2. 3.]
 [4. 5. 6.]]
48


In [3]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.complex)
print(x)
print(x.nbytes)

[[1.+0.j 2.+0.j 3.+0.j]
 [4.+0.j 5.+0.j 6.+0.j]]
96


In [4]:
x = np.array([[1,2,3],[4,-5,6]], dtype = np.uint32)
print(x)
print(x.nbytes)

[[         1          2          3]
 [         4 4294967291          6]]
24


Cada tipo consume un numero distinto de bytes:

In [5]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.int64)
print("int64 consume",x.nbytes, "bytes")
x = np.array([[1,2,3],[4,5,6]], dtype = np.int32)
print("int32 consume",x.nbytes, "bytes")

int64 consume 48 bytes
int32 consume 24 bytes


Es importante tener en cuenta este tipo de cosas basicas especialmente cuando estamos hablando de Big Data en donde este tipo de conversiones es muy importante para el desempeno. Como podemos ver no podemos modificar el *dtype* de nuestra matriz una vez que la hemos creado, pero lo que si podemos hacer es copiarla y cambiar el *dtype* con el atributo *astype*, un ejemplo:

In [6]:
copia_x = np.array(x, dtype = np.float)
copia_x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [7]:
copia_x_int = copia_x.astype(np.int)
copia_x_int

array([[1, 2, 3],
       [4, 5, 6]])

**Algo muy importante que tenemos que considerar es que *astype* no cambia el *dtype* "de copia_x", lo que sucede es que conserva las condiciones originales pero crea "copia_x_int"**

Hagamos un ejercicio de imaginacion en donde queremos encontrar a un asaltante en una ciudad con 100,000 habitantes y cada estudiante tiene 100 caracteristicas cada uno, obviamente nuestra matriz es [100000, 10]:

In [8]:
Datos_ciudad= np.random.rand(100000,100)
print(type(Datos_ciudad))
print(Datos_ciudad.dtype)
print(Datos_ciudad.nbytes)
Nuevo_Datos_Ciudad = np.array(Datos_ciudad, dtype = np.float32)
print(Nuevo_Datos_Ciudad.nbytes)

<class 'numpy.ndarray'>
float64
80000000
40000000


Como podemos ver nuestra primera matriz es un float64 pero la segunda es un float32, la diferencia de bytes es practicamente del 50%,de 80 MB paso a ser de 40 MB, lo que va a pasar es que vamos a tener una reduccion de precision despues del punto decimal, de 16 puntos decimales pasamos a solo 8, esto es importante dependiendo del algoritmo con el que estemos trabajando, cuando tenemos datasets muy grandes podemos quedarnos sin memoria al procesar los datos. 

## Operaciones con matrices Numpy


In [9]:
mi_lista = [2, 14, 6, 8]
mi_matriz = np.asarray(mi_lista)
type(mi_matriz)

numpy.ndarray

In [10]:
# Hagamos un par de operaciones aritmeticas
# suma
print('le sumamos 2 =', mi_matriz + 2)
# resta
print('le restamos 2 =', mi_matriz - 2)
# multiplicacion
print('multiplicamos *2 =', mi_matriz * 2)
# division
print('dividimos / 2 =', mi_matriz/2)

le sumamos 2 = [ 4 16  8 10]
le restamos 2 = [ 0 12  4  6]
multiplicamos *2 = [ 4 28 12 16]
dividimos / 2 = [1. 7. 3. 4.]


Por que no hicimos las operaciones con la lista? Porque las listas no estan vectorizadas y para hacer operaciones seria necesario iterar cada uno de los elementos dentro de la lista para hacer la operacion ergo numpy no ayuda a hacer esto de manera muy sencilla. Mas ejemplos:

In [11]:
# una matriz de zeros + 3 
segunda_matriz = np.zeros(4) + 3
print(segunda_matriz)
print(mi_matriz - segunda_matriz)
print(segunda_matriz/ mi_matriz)

[3. 3. 3. 3.]
[-1. 11.  3.  5.]
[1.5        0.21428571 0.5        0.375     ]


In [12]:
# una matriz de unos + 3
segunda_matriz = np.ones(4) + 3
print(segunda_matriz)
print(mi_matriz - segunda_matriz)
print(segunda_matriz/mi_matriz)

[4. 4. 4. 4.]
[-2. 10.  2.  4.]
[2.         0.28571429 0.66666667 0.5       ]


In [13]:
# una matriz de identidad
segunda_matriz = np.identity(4)
print(segunda_matriz)
segunda_matriz = np.identity(4) + 3
print(segunda_matriz)
print(mi_matriz - segunda_matriz) 
print(segunda_matriz/mi_matriz)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[4. 3. 3. 3.]
 [3. 4. 3. 3.]
 [3. 3. 4. 3.]
 [3. 3. 3. 4.]]
[[-2. 11.  3.  5.]
 [-1. 10.  3.  5.]
 [-1. 11.  2.  5.]
 [-1. 11.  3.  4.]]
[[2.         0.21428571 0.5        0.375     ]
 [1.5        0.28571429 0.5        0.375     ]
 [1.5        0.21428571 0.66666667 0.375     ]
 [1.5        0.21428571 0.5        0.5       ]]


In [14]:
# usemos el metodo arange, nos genera una matriz con un intervalo entre
# el primer y el ultimo valor de nuestra matriz
x = np.arange(3,7,0.5)
x

array([3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5])

In [15]:
# si no sabemos el invervalo que cada valor debe tener entre si, pero si sabemos 
# el numero de elementos que deben existir entre el elemento inicial y el final
x = np.linspace(1.2, 40.5, num=20)
x

array([ 1.2       ,  3.26842105,  5.33684211,  7.40526316,  9.47368421,
       11.54210526, 13.61052632, 15.67894737, 17.74736842, 19.81578947,
       21.88421053, 23.95263158, 26.02105263, 28.08947368, 30.15789474,
       32.22631579, 34.29473684, 36.36315789, 38.43157895, 40.5       ])

In [16]:
# podemos usar metodos similares con outputs distintos dado que usan una escala diferente
# los metodos son 'geomspace' y 'logspace'
geo = np.geomspace(1, 625, num=5)
print(geo)
log = np.logspace(3, 4, num=5)
print(log)
# 10**3 - 10**4

[  1.   5.  25. 125. 625.]
[ 1000.          1778.27941004  3162.27766017  5623.4132519
 10000.        ]


In [17]:
# Para respetar el 3 y 4 como nuestros puntos de partida y final tenemos que usar log10
log10 = np.logspace(np.log10(3), np.log10(4), num=5)
log10

array([3.        , 3.2237098 , 3.46410162, 3.72241944, 4.        ])

In [18]:
# comparacion de matrices boolean por elemento
x = np.array([1,2,3,4])
y = np.array([1,3,4,4])
x == y

array([ True, False, False,  True])

In [19]:
# comparacion de matrices boolean matriz entera
x = np.array([1,2,3,4])
y = np.array([1,3,4,4])
np.array_equal(x,y)

False

In [20]:
# comparacion logica or
x = np.array([0, 1, 0, 0], dtype=bool)
y = np.array([1, 1, 0, 1], dtype=bool)
np.logical_or(x,y)

array([ True,  True, False,  True])

In [21]:
# comparacion logica and
np.logical_and(x,y)

array([False,  True, False, False])

In [22]:
# comparacion logica or
np.logical_or(x <13,x > 50)

array([ True,  True,  True,  True])

In [23]:
# aritmetica con funciones tracendentales
x = np.array([1, 2, 3,4 ])
np.exp(x)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [24]:
np.log(x)

array([0.        , 0.69314718, 1.09861229, 1.38629436])

In [25]:
np.sin(x)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ])

In [26]:
# tranponer una matriz
x = np.arange(9)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [27]:
x = np.arange(9).reshape((3,3))
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [28]:
x.T

array([[0, 3, 6],
       [1, 4, 7],
       [2, 5, 8]])

In [29]:
# transponer matrices asimetricas
x = np.arange(6).reshape(2,3)
x

array([[0, 1, 2],
       [3, 4, 5]])

In [30]:
x.T

array([[0, 3],
       [1, 4],
       [2, 5]])

### Metodos

|Metodo|Descripcion|
|------|-----------|
|np.sum|Regresa la suma total de todos los valores de la matriz o un eje especifico|
|np.amin|Regresa el valor minimo de todas las matrices o de un eje especifico|
|np.amax|Regresa el valor maximo de todas las matrices o de un eje especifico|
|np.percentile|Regresa el percentil de todas las matrices o de un eje especifico|
|np.nanmin|Lo mismo que np.amin, pero ignora valore NaN en las matrices|
|np.nanmax|Lo mismo que np.amax, pero ignora los valores NaN en las matrices|
|np.nanpercentile|Lo mismo que np.percentile, pero ignora los valores NaN en las matrices|

Ejemplos:


In [31]:
x = np.arange(9).reshape((3,3))
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [32]:
np.sum(x)

36

In [33]:
np.amin(x)

0

In [34]:
np.amax(x)

8

In [35]:
np.amin(x, axis=0)

array([0, 1, 2])

In [36]:
np.amin(x, axis=1)

array([0, 3, 6])

In [37]:
np.percentile(x, 80)

6.4

In [38]:
# indice de valor maximo
x = np.array([1, -21, 3, -3])
np.argmax(x)


2

In [39]:
# indice de valor minimo 
np.argmin(x)

1

### Metodos

|Metodo|Descripcion|
|------|-----------|
|np.mean|Regresa la media de la matriz o del eje especifico|
|np.median|Regresa la mediana de la matriz o del eje especifico|
|np.std|Regresa la desviacion estandar de la matriz o del eje especifico|
|np.nanmean|Lo mismo que np.mean, pero ignora los valores NaN en la matriz|
|np.nanmedian|Lo mismo que np.median, pero ignora los valores NaN en la matriz|
|np.nanstd|Lo mismo que np.nanstd, pero ignora los valores NaN en la matriz|

Ejemplos:

In [40]:
x = np.array([[2, 3, 5], [20, 12, 4]])
x

array([[ 2,  3,  5],
       [20, 12,  4]])

In [41]:
np.mean(x)

7.666666666666667

In [42]:
np.mean(x, axis=0)

array([11. ,  7.5,  4.5])

In [43]:
np.mean(x, axis=1)

array([ 3.33333333, 12.        ])

In [44]:
np.median(x)

4.5

In [45]:
np.std(x)

6.394442031083626

## Matrices multidimensionales


In [46]:
c = np.ones((4, 4))
c*c

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [47]:
# para hacer multiplicaciones con Numpy usamos el metodo 'dot()'
c.dot(c)

array([[4., 4., 4., 4.],
       [4., 4., 4., 4.],
       [4., 4., 4., 4.],
       [4., 4., 4., 4.]])

In [48]:
# uno de los ejes fundamentales del trabajo con matrices es el stacking/apilado, lo podemos hacer con 
# 'hstack' para apilado horizontal y 'vstack' para apilado vertical. De igual manera pode hacer split con
# 'hsplit' para split horizontal y 'vsplit' para split vertical
y = np.arange(15).reshape(3,5)
x = np.arange(10).reshape(2,5)
nueva_matriz = np.vstack((y,x))
nueva_matriz

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9]])

In [49]:
y = np.arange(15).reshape(5,3)
x = np.arange(10).reshape(5,2)
nueva_matriz = np.hstack((y,x))
nueva_matriz

array([[ 0,  1,  2,  0,  1],
       [ 3,  4,  5,  2,  3],
       [ 6,  7,  8,  4,  5],
       [ 9, 10, 11,  6,  7],
       [12, 13, 14,  8,  9]])

Todos los metodos que hemos analizado hasta ahora son muy utiles cuando estamos desarrollando datasets para aplcaciones que utilizan Machine Learning/Aprendizaje Estadistico. Podemos utilizar ***scipy.stats*** para ver los estadisticos descriptivos de un dataset. Ejemplo:

In [50]:
from scipy import stats
x= np.random.rand(100,10)
n, min_max, mean, var, skew, kurt = stats.describe(x)
nueva_matriz = np.vstack((mean, var, skew, kurt, min_max[0], min_max[1]))
nueva_matriz.T

array([[ 4.74967329e-01,  8.11511902e-02,  1.04711900e-02,
        -1.16916322e+00,  2.80103182e-03,  9.97021572e-01],
       [ 4.86811434e-01,  7.87356057e-02,  1.02863592e-02,
        -1.18729574e+00,  1.03437624e-02,  9.91322285e-01],
       [ 4.44645120e-01,  8.49881878e-02,  1.33383928e-01,
        -1.20006217e+00,  2.03402617e-03,  9.94223717e-01],
       [ 5.13614981e-01,  8.61267017e-02, -2.00009132e-02,
        -1.15901048e+00,  3.15985241e-03,  9.87571612e-01],
       [ 5.38561409e-01,  8.28837074e-02, -2.81728180e-01,
        -1.13021297e+00,  8.26287868e-03,  9.97528787e-01],
       [ 5.04578310e-01,  9.22388915e-02,  8.97217594e-02,
        -1.31864160e+00,  1.47828067e-02,  9.96747333e-01],
       [ 5.34853907e-01,  9.27929164e-02, -1.03890704e-01,
        -1.38947679e+00,  1.73960398e-02,  9.99939682e-01],
       [ 5.23963815e-01,  8.13247757e-02, -1.03565660e-01,
        -1.10849752e+00,  1.10026968e-03,  9.91824112e-01],
       [ 5.16151644e-01,  1.00003793e-01,  1.801

In [51]:
# Otro modulo muy util en Numpy es el 'scipy.ma' que vamos a usar para enmascarar/ignorar
# elementos cuando hacemos operaciones. Ejemplo:

import numpy.ma as ma
x = np.arange(6)
print(x)
print(x.mean())
matriz_enmascarada = ma.masked_array(x, mask=[1,0,0,0,0,0])
print(matriz_enmascarada)
matriz_enmascarada.mean()

[0 1 2 3 4 5]
2.5
[-- 1 2 3 4 5]


3.0

In [52]:
# Lo mismo pero con NaNs 
x = np.arange(25, dtype = float).reshape(5,5)
x[x<5] = np.nan
x

array([[nan, nan, nan, nan, nan],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]])

In [53]:
np.where(np.isnan(x), ma.array(x, mask=np.isnan(x)).mean(axis=0), x)

array([[12.5, 13.5, 14.5, 15.5, 16.5],
       [ 5. ,  6. ,  7. ,  8. ,  9. ],
       [10. , 11. , 12. , 13. , 14. ],
       [15. , 16. , 17. , 18. , 19. ],
       [20. , 21. , 22. , 23. , 24. ]])

### Metodos

|Metodo|Descripcion|
|------|-----------|
|np.concatenate|Unirse a la matriz en una secuencia con una matriz dada|
|np.repeat|Repite el elemento de una matriz a lo largo de un eje específico|
|np.delete|Devuelve una nueva matriz con los subarrays eliminados|
|np.insert|Inserta valores antes del eje especificado|
|np.unique|Encontrar valores unicos en la matriz|
|np.tile|Crea una matriz repitiendo una entrada dada para un número dado de repeticiones|

Cuando trabajamos con Machine Learning una de las tareas mas comunes consiste en indexar, cortar, reformar y redimenzionar. El termino de indexar es comumente usado en matematicas y en computer science. Cuando estamos usando Numpy la tarea mas recurrente es controlar y manipular los elementos dentro de una matriz.

Ejemplos:

In [54]:
# Indexar en una lista
x = ["USA","Francia", "Alemania","Inglaterra"]
x[2]

'Alemania'

In [55]:
# Indexar en un tupple
x = ('USA',3,"France",4)
x[2]

'France'

In [56]:
# Indexar con Numpy
x = np.arange(10)
print(x)
print(x[5])
print(x[-2])
print(x[2:8])
print(x[:])
print(x[2:8:2])

[0 1 2 3 4 5 6 7 8 9]
5
8
[2 3 4 5 6 7]
[0 1 2 3 4 5 6 7 8 9]
[2 4 6]


In [57]:
# lo mismo pero con matrices multidimensionales
x = np.reshape(np.arange(16),(4,4))
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [58]:
x[1:3]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [59]:
x[:,1:3]

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10],
       [13, 14]])

In [60]:
x[1:3,1:3]

array([[ 5,  6],
       [ 9, 10]])

Hasta ahora hemos 'cortado' las matrices en fila y columna, pero no hemos cortado los elementos de una manera más irregular o más dinámica, lo que significa que siempre los hemos 'cortado' de forma rectangular o cuadrada. Veamos una matriz de 4 * 4 que queremos dividir de la siguiente manera:
<img src='../data/img/array.png'>
Ahora hagamos el *slicing* de la imagen con codigo:

In [61]:
x = np.reshape(np.arange(16),(4,4))
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [62]:
# primero especificamos las filas
# depues especificamos las columnas
x[[0,1,2],[0,1,3]]

array([ 0,  5, 11])

In [63]:
# cuando usamos 'reshape' lo que estamos haciendo es cambiar la forma de la matriz de forma temporal
x = np.arange(16).reshape(4,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [64]:
# cuando usamos 'resize' cambiamos la forma de la matriz de forma permanente 
np.resize(x,(2,2))

array([[0, 1],
       [2, 3]])

In [65]:
np.resize(x,(6,6))

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15,  0,  1],
       [ 2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13],
       [14, 15,  0,  1,  2,  3]])

In [83]:
# uno de los terminos mas importante es el 'broadcasting'
# numpy tiene dos reglas para el broadcasting
# 1. las matrices tienen las mismas dimensiones
# 2. o una de ella es 1
x = np.arange(16).reshape(4,4)
y = np.arange(6).reshape(2,3)
x+y

ValueError: operands could not be broadcast together with shapes (4,4) (2,3) 

In [71]:
x = np.ones(16).reshape(4,4)
y = np.arange(4)
print(x)
print(y)
x*y

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[0 1 2 3]


array([[0., 1., 2., 3.],
       [0., 1., 2., 3.],
       [0., 1., 2., 3.],
       [0., 1., 2., 3.]])

In [68]:
x = np.arange(4).reshape(2,2)
x

array([[0, 1],
       [2, 3]])

In [69]:
y = np.arange(2).reshape(1,2)
y

array([[0, 1]])

In [70]:
x*y

array([[0, 1],
       [0, 3]])