# Python para el análisis de datos -  UNAV
---

# NumPy

# Introduccion a NumPy<a name="introduccion_numpy"></a>
[Volver al índice](#indice)


* Es una librería que nos permite representar de manera sencilla vectores multidimensionales.
* Proporciona funciones y herramientas matemáticas para trabajar con los vectores.
* Es muy eficiente y rápida a la hora de hacer cálculos con grandes cantidades de datos.

Las matrices NumPy tienen varias ventajas sobre las listas de Python. Estos beneficios se centran en proporcionar la manipulación de alto rendimiento de secuencias de elementos de datos homogéneos. Varios de estos beneficios son los siguientes:
- Asignación contigua en la memoria
- Operaciones vectorizadas
- Selección booleana
- Sliceability

Vamos a testear los beneficios de utilizar numpy vs listas.

In [1]:
def squares(values):
    result = []
    for v in values:
        result.append(v ** 2)
    return result
   # creamos lista de  100K elementos
to_square = list(range(100000))
# medimos tiempo de ejecucion con 
%timeit squares(to_square) 

26.1 ms ± 45.8 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [2]:
import numpy as np # directiva para importar libreria

# mismo codigo lo hacemos con numpy
array_to_square = np.arange(0, 100000)
# medimos tiempo de la operacion vectorizada
%timeit array_to_square ** 2

28.8 µs ± 194 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Puedes ver como la vectorizacion ha reducido el tiempo de ejecucion de nuestro codigo en varios ordenes de magnitud.

Esto saca a la luz algo a tener en cuenta cuando se trabaja con datos en NumPy y Pandas: si estas escribendo un _loop_ para iterar a través de elementos de una matriz NumPy, un _series_ de pandas o un DataFrame, entonces estás probablemente hacien algo incorrecto. Siempre has de tener en cuenta escribir código que haga uso de la vectorización. Casi siempre es más rápido, y se expresa de forma más elegante de forma vectorizada.

La **selección booleana** es un patrón común que veremos con NumPy y pandas donde la selección de elementos de una matriz se basa en criterios específicos. Esto consiste en calcular una matriz de valores booleanos donde True representa que el elemento dado que debe estar en el conjunto de resultados. Esta matriz se puede usar para seleccionar eficientemente los elementos que coinciden.

## Creacion de arrays en NumPy<a name="creacion_arrays_numpy"></a>
[Volver al índice](#indice)

Antes de poder crear un array NumPy tenemos que importar la libreria. Esto se hace como ya hemos visto con otras a traves del comando _import numpy_.

In [3]:
import numpy as np # importamos y le decimos a python que lo llamaremos np

Un vector NumPy puede crearse de multiples formas, todas estas crean un vector NumPy.

In [4]:
# un array simple
a1 = np.array([1, 2, 3, 4, 5])
print(a1) # ojo no es una lista es un objeto numpy
print(type(a1)) # el tipo es numpy.array
print(np.size(a1)) # cual es el tamanio de nuestro vector
print(a1.dtype) # que tipo de datos contiene nuestro vector

[1 2 3 4 5]
<class 'numpy.ndarray'>
5
int64


En NumPy, las matrices n-dimensionales se denotan como ndarray, la de nuestro ejemplo contiene cinco elementos, como informa la función _np.size()_.
Las matrices NumPy deben tener todos sus elementos del mismo tipo. Si especificas diferentes tipos en la lista, NumPy intentará realizar un casting de todos los elementos al mismo tipo (al tipo mas general). El siguiente ejemplo de código demuestra el uso de valores enteros y de coma flotante al inicializar la matriz, que luego se convierten a números de coma flotante por NumPy.

In [5]:
# creando un array de enteros y floats
a2 = np.array([1, 2, 3, 4.0, 5.0])
print(a2) # numpy lo convierte a uno de floats

[1. 2. 3. 4. 5.]


Si realizamos las misma operacion con una cadena dentro, NumPy nos convertira el tipo de los elementos del vector a str.

In [6]:
# creando un array de enteros y floats y cadenas
a2 = np.array([1, 2, 3, 4.0, 5.0, 'hola'])
print(a2) # numpy lo convierte a uno de floats
print(a2.dtype) # <US32 es un tipo interno de numpy para representar una cadena.


['1' '2' '3' '4.0' '5.0' 'hola']
<U32


**Aunque lo anterior funciona, NumPy es una libreria orientada al calculo numerico de modo que se desaconseja el almacenamiento de strings en su interior.** Pronto veremos librerias para el manejo mas sencillo y eficiente de cadenas.

In [7]:
a = np.array([1, 2, 3])  # Crea un array de rango 1
print(type(a))            # imprime "<type 'numpy.ndarray'>"
print(a.shape)           # imprime "(3,)"
print(a[0], a[1], a[2])   # imprime "1 2 3"
a[0] =(5)                 # cambia un elemento del 
print(a)                  # imprime "[5, 2, 3]"
print('-'*20)
b = np.array([[1,2,3],[4,5,6]])   # crea de dos dimensiones 

#################CAMBIAR DIMENSIÓN DE UNA

print(b.shape)                     # imprime "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])  # imprime "1 2 4"
print(b)

<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]
--------------------
(2, 3)
1 2 4
[[1 2 3]
 [4 5 6]]


Es importante distinguir entre _numero de dimensiones_ y _forma_.

In [8]:
a = np.zeros((3,3))

print('El numero de dimensiones de a son:', len(a.shape)) # nos dice cuantas dimensiones tiene la matriz
print('El forma es de a es:', a.shape) # nos dice cuantos elementos tiene cada dimension
print(a)

El numero de dimensiones de a son: 2
El forma es de a es: (3, 3)
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


## Metodos para la creacion de arrays en NumPy<a name="metodos_creacion_arrays_numpy"></a>
[Volver al índice](#indice)

Provee de diferentes metodos para crear arrays.  

Creacion de un array de ceros.

In [9]:
a = np.zeros((2,2))  # crea array de zeros de 2 x 2
print(a, '\n---')

[[0. 0.]
 [0. 0.]] 
---


Creacion de un array de unos.

In [10]:
b = np.ones((2,2))   # Crea array de unos de 2 x 2
print(b, '\n---') 

[[1. 1.]
 [1. 1.]] 
---


Creacion de un array de una constante.

In [11]:
c = np.full((2,2), 7.) # crea un array de una constante de 2 x 2
print(c, '\n---')

[[7. 7.]
 [7. 7.]] 
---


Creacion de matriz identidad.

In [12]:
d = np.eye(2)        # crea una array (matriz) 2x2 identidad
print(d, '\n---')

[[1. 0.]
 [0. 1.]] 
---


Creacion de array con valores aleatorios.

In [13]:
e = np.random.random((2,2)) # crea array con valores aleatorios 2x2
print(e, '\n---')

[[0.16373853 0.887123  ]
 [0.67831456 0.40625632]] 
---


La funcion arange de modo similar a la funcion range nos permite crear un array.

In [14]:
x = np.arange(0, 10, .5)
print(x)

[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5]


Creacion de un array de _n_ elementos distribuidos linealmente.

In [15]:
x = np.linspace(0, 1, 11) 
print(x)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


Si estas interesado en mas funciones para el creado puedes acudir a la [pagina oficial de la documentacion de NumPy](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.array-creation.html#routines-array-creation)

## Indexado<a name="indexado_numpy"></a>
[Volver al índice](#indice)

Al igual que las listas, para acceder a los arrays se puede utilizar el operador de corte (_slicing_). Al ser arrays multidimensionales hay que especificar las dimensiones a las que queremos acceder

In [16]:
# crea array de dimensiones 2 y shape (3,4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a.shape)
print(a.ndim)
print(a)
# crea array de dimensiones 2 y shape (4,3)
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])
print(arr.ndim)
print(arr.shape)
print(arr)

(3, 4)
2
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
3
(2, 2, 3)
[[[1 2 3]
  [4 5 6]]

 [[1 2 3]
  [4 5 6]]]


In [17]:
# Utiliza slicing para extrar un subarray que consiste de las dos primeras filas y las columnas 1 y 2
b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


**No se crea una copia cuando se hace _slicing_, la nueva variable apunta a la misma zona de memoria. Si se modifica el _slice_ se modifica el original. **

In [12]:
# Un slice de un array apunta a la misma zona de memoria de modo
#que modificando este, modificamos el array original
print(a[0, 1])
b[0, 0] = 77    
print(a[0, 1])  
print(a)

#######################HACER PRUEBAS CON SLICING DE LISTAS Y EXPLICAR DE NUEVO PUNTEROS

2
77
[[ 1 77  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


Se puede acceder a los elementos combinando _slicing_ e indexado simple. Si se accede usando un entero se obtiene un array de rango menor.

In [13]:
# crea array de rango 2 y shape (3,4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [14]:
fila1 = a[1, :]    # Accede a la primera fila y retorna array de dimension 1 y 4 elementos
print(fila1, fila1.shape)

[5 6 7 8] (4,)


Si se accede usando _slicing_ se obtiene un array del mismo numero de dimensiones.

In [None]:
fila2 = a[1:2, :]  # Accede a la primera fila y retorna array de rango 2 igual al original
print(fila2, fila2.shape)  # imprime "[[5 6 7 8]] (1, 4)"

[[5 6 7 8]] (1, 4)


Tambien se puede acceder a diferentes elementos en diferentes filas y columnas

In [16]:
# crea array de rango 2 y shape (3,4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, '\n---')

print(a[[0,2],[0,3]], '\n---') #PRIMER ELEMENTO SELECCIONA FILAS, SEGUNDO ELEMENTO COLUMNAS
print(a[[0,2],:], '\n---')
print(a[:,-1] + 10, '\n---')


[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] 
---
[ 1 12] 
---
[[ 1  2  3  4]
 [ 9 10 11 12]] 
---
[14 18 22] 
---


Tambien se puede acceder utilizando un indexado booleano _True_ y _False_

In [17]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a, '\n---')

bool_idx = (a > 2)  # encuentra indices que son mayores que 2 y devuelve array booleano
print(bool_idx, '\n---')

print(a[bool_idx], '\n---')
# todo de una vez en modo pythonico
print(a[a > 2] + 10)

[[1 2]
 [3 4]
 [5 6]] 
---
[[False False]
 [ True  True]
 [ True  True]] 
---
[3 4 5 6] 
---
[13 14 15 16]


### Tipos de datos<a name="tipos_de_datos"></a>
[Volver al índice](#indice)

Numpy define nuevos tipos de datos que representan a los que ya conocemos pero no son los mismos

In [18]:
x = np.array([1, 2])  # numpy elige el tipo de datos
print(x.dtype)

x = np.array([1.0, 2.0])  # numpy elige el tipo de dato
print(x.dtype) 

x = np.array([1, 2], dtype=np.int64)  # forzamos un tipo de dato concreto
print(x.dtype) 
print(x.dtype is int)
print(x.dtype == np.int64)

int64
float64
int64
False
True


### Funciones matematicas<a name="funciones_matematicas"></a>
[Volver al índice](#indice)

Se pueden realizar funciones matematicas sencillas entre arrays de la siguiente forma.  
Suma y resta.

In [9]:

x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# suma elemento a elemento
%timeit x + y
%timeit np.add(x, y)
print('-'*10)

#import pdb; pdb.set_trace()

# resta elemento a elemento
print(x - y)
print(np.subtract(x, y))
print('-'*10)

616 ns ± 11.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
635 ns ± 6.44 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
----------
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
----------


Multiplicacion y division.

In [10]:
# producto elemento a elemento
native = x * y
print(native)
print(np.multiply(x, y))
print('-'*10)

# division elemento a elemento
print(x / y)
print(np.divide(x, y))
print('-'*10)

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
----------
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
----------


Raiz cuadrada

In [None]:
# raiz cuadrada elemento a elemento
print(np.sqrt(x))
print('-'*10)

[[1.         1.41421356]
 [1.73205081 2.        ]]
----------


## Vectorizando funciones (acabando con el for) <a name="vectorizando_funciones"></a>
[Volver al índice](#indice)

Una de las ventajas de trabajar con arrays numéricos en NumPy es sacar provecho de la optimización que se produce a nivel de la propia estructura de datos. En el caso de que queramos implementar una función propia para realizar una determinada acción, sería deseable seguir aprovechando esa característica.

In [11]:
def customf(a, b):
    if a > b:
        return a + b
    elif a < b:
        return a - b
    else:
        return 0

Las dos matrices de partida tienen 9M de valores aleatorios entre -100 y 100:

In [12]:
a = np.random.randint(-100, 100, size=(300, 300))
b = np.random.randint(-100, 100, size=(300, 300))

Una primera aproximación para aplicar esta función a cada elemento de las matrices de entrada sería la siguiente:

In [13]:
def custom_para_matriz(a,b):
    result = np.zeros_like(a)

    for i in range(a.shape[0]):
        for j in range(a.shape[1]):
            result[i, j] = customf(a[i, j], b[i, j])
    return result

%timeit custom_para_matriz(a,b)


60.8 ms ± 724 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Con un pequeño detalle podemos mejorar el rendimiento de la función que hemos diseñado anteriormente. Se trata de decorarla con np.vectorize con lo que estamos otorgándole un comportamiento distinto y enfocado al procesamiento de arrays numéricos:

In [14]:
@np.vectorize
def customf(a, b):
    if a > b:
        return a + b
    elif a < b:
        return a - b
    else:
        return 0

Dado que ahora ya se trata de una función vectorizada podemos aplicarla directamente a las matrices de entrada (aprovechamos para medir su tiempo de ejecución):

In [15]:
%timeit customf(a, b)

26.6 ms ± 1.11 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Metodos<a name="metodos"></a>
[Volver al índice](#indice)

Estadisticos.

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a.sum()) # suma
print(a.mean()) # media
print(np.median(a)) # mediana
print(a.std()) # desviacion estandar
print(a.var()) # varianza
print(a.min()) # minimo
print(a.max()) # maximo
print(a.argmin()) # indice del elemento minimo
print(a.argmax()) # indice del elemento maximo
print(a.cumsum()) # suma acumulada
print(a.cumprod()) # producto acumulado

78
6.5
6.5
3.452052529534663
11.916666666666666
1
12
0
11
[ 1  3  6 10 15 21 28 36 45 55 66 78]
[        1         2         6        24       120       720      5040
     40320    362880   3628800  39916800 479001600]
