# Numpy

* Numpy es un paquete para computación científica en Python.
    * Entre otras cosas implementa soporte para vectores (arrays) y matrices.
* Los arrays (`ndarray`) de `numpy` son más eficientes que las listas.
    * Una lista en Python puede almacenar cualquier objeto de Python (`int`, `str`, etc.).
    * Un array de numpy *solo* puede almacenar elementos del mismo tipo, utilizando los tipos propios de `numpy`, que son compatibles con los tipos de Python.
    * Un array ocupa mucho menos espacio en memoria.

In [3]:
import numpy

## Tipos de datos en numpy

* `numpy` implementa sus propios tipos de datos

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

## Creando un array

* Un array se puede crear de diferentes maneras

In [2]:
# A partir de una lista

numpy.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
# No se pueden mezclar elementos de diferente tipo, por lo que numpy trata de convertirlos

numpy.array([1, 2.2, 3, 0])  # En este caso los cambia a float

array([1. , 2.2, 3. , 0. ])

In [4]:
# Lo mismo sucede si mezclamos tipos numericos y no numericos

numpy.array([1, 2, "a"])

array(['1', '2', 'a'], dtype='<U21')

In [5]:
# Podemos especificar el tipo directamente

numpy.array([1, 2, 3, 0], dtype="float32")  # En este caso los cambia a float (Parámetro adicional)

array([1., 2., 3., 0.], dtype=float32)

In [6]:
# También podemos crear arrays de cadenas de caracteres

numpy.array(["a", "b", "ccc"])

array(['a', 'b', 'ccc'], dtype='<U3')

In [7]:
# Si tenemos listas anidadas nos creará una matriz

l = [[1, 2, 3], [4, 5, 6], [7, 8, 9,]]
numpy.array(l)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Creando diferentes tipos de arrays

* `numpy` tiene diferentes formas de crear arrays que nos serán muy útiles durante nuestro trabajo

In [8]:
# Creando un array de ceros

numpy.zeros(10)  # Por defecto son floats

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [9]:
# Creando un array de ceros

numpy.zeros(10, dtype="int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
# Creando un array de unos

numpy.ones(10, dtype="int")

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [12]:
# El primer parámetro de numpy.array() (o numpy.ones(), numpy.zeros(), etc.) indica la dimensión, luego podemos hacer

numpy.zeros((4, 4), dtype="int")

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [13]:
# También podemos rellenar un array con una secuencia, similar a la función range() de Python

numpy.arange(0, 100, 25)

array([ 0, 25, 50, 75])

In [14]:
# ¿Números aleatorios? También

numpy.random.random(5)

array([0.17062375, 0.33690773, 0.58668405, 0.9057267 , 0.26966713])

## Propiedades y atributos de los arrays

* A un array se puede acceder de forma similar a una lista (indexing, slicing, etc.)
* Con arrays se pueden realizar operaciones, de forma similar a las listas.
* Como todo objeto en Python, podemos acceder a los atributos de los arrays.

In [17]:
a = numpy.random.randint(10, size=4)  # 1 dimension
b = numpy.random.randint(10, size=(3, 3))  # 2 dimensiones
c = numpy.random.randint(10, size=(3, 3, 3))  # 3 dimensiones

In [18]:
print(a)
print("--")
print(b)
print("--")
print(c)

[7 8 0 0]
--
[[3 5 1]
 [9 1 9]
 [1 0 6]]
--
[[[9 1 3]
  [4 7 8]
  [6 3 9]]

 [[4 7 1]
  [8 9 9]
  [8 6 5]]

 [[7 9 5]
  [4 3 2]
  [3 9 0]]]


### Indexing

In [19]:
print(a[1])
print(b[2, 2])
print(c[1, 1, 1])

8
6
9


In [20]:
print(a[-1])
print(b[-2, -2])
print(c[-1, -1, -1])

0
1
0


In [22]:
# También podemos asignar elementos

a[0] = 120
print(a)

[120   8   0   0]


# Fancy indexing
* Una característica muy interesante es que se pueden **seleccionar** elementos a partir de otro array o bien a partir de una lista, incluso un array de booleanos.

In [26]:
z = numpy.random.randint(10, size=100)
z

array([0, 5, 1, 1, 7, 7, 3, 8, 6, 1, 9, 4, 1, 2, 8, 3, 6, 1, 8, 3, 7, 0,
       8, 7, 5, 0, 1, 2, 3, 7, 7, 0, 6, 4, 6, 1, 0, 1, 8, 7, 6, 1, 7, 3,
       6, 4, 7, 7, 6, 9, 5, 5, 3, 3, 0, 5, 6, 2, 7, 3, 4, 5, 4, 5, 1, 6,
       8, 8, 2, 1, 9, 7, 8, 9, 6, 3, 5, 5, 8, 1, 4, 2, 0, 1, 2, 8, 4, 3,
       8, 2, 4, 8, 6, 3, 7, 8, 9, 3, 8, 0])

In [27]:
select = numpy.array([1, 10, 20, 99])

z[select]

array([5, 9, 7, 0])

In [28]:
z[[1, 10, 20, 99]]

array([5, 9, 7, 0])

In [29]:
z = numpy.array([1, 2, 3, 4])
z[[True, False, True, False]]

array([1, 3])

### Slicing 

* Podemos obtener _slices_ de forma similar a las listas (`[start:stop:step]`).
* Para los arrays multidimensionales es igual, separando las diferentes _slices_ por comas

In [32]:
print(a)
print(b)
print(a[1:3])
print(b[1:3, 1:3]) #index primero de filas y después de columnas

[120   8   0   0]
[[3 5 1]
 [9 1 9]
 [1 0 6]]
[8 0]
[[1 9]
 [0 6]]


* ***OJO*: Un slice de numpy *NO* crea una copia!!!**
* Si se quiere crear una copia hay que utilziar `.copy()`

In [33]:
test = numpy.zeros(10, dtype="int")
print(test)

[0 0 0 0 0 0 0 0 0 0]


In [34]:
aux = test[5:8]
print(aux)

[0 0 0]


In [35]:
aux[0] = 1
aux[1] = 2
aux[2] = 3
print(aux)

[1 2 3]


In [36]:
print(test)

[0 0 0 0 0 1 2 3 0 0]


### Seleccionando columnas o filas completas

* Se puede hacer de forma similar a un slice, pero utilizando también un índice

In [37]:
matrix = numpy.random.randint(10, size=(10,10))
matrix

array([[5, 1, 6, 9, 2, 1, 2, 3, 7, 5],
       [6, 5, 0, 2, 2, 4, 7, 9, 7, 1],
       [9, 0, 2, 0, 7, 4, 4, 3, 3, 2],
       [0, 6, 8, 0, 7, 3, 1, 0, 3, 3],
       [1, 3, 7, 6, 6, 9, 7, 3, 8, 2],
       [7, 1, 2, 9, 4, 7, 7, 3, 2, 1],
       [6, 4, 5, 7, 3, 0, 4, 3, 2, 0],
       [8, 6, 7, 1, 5, 5, 1, 0, 7, 9],
       [3, 3, 3, 7, 2, 0, 6, 7, 3, 6],
       [2, 6, 5, 9, 3, 1, 1, 5, 9, 5]])

In [38]:
matrix[:,5]  # Columna 5

array([1, 4, 4, 3, 9, 7, 0, 5, 0, 1])

In [39]:
matrix[4,:]  # Fila 4

array([1, 3, 7, 6, 6, 9, 7, 3, 8, 2])

### Atributos

* Los arrays de numpy tienen diferentes atributos que nos dan información del array

In [42]:
print("dimension:", a.ndim) #Dimesión
print("    forma:", a.shape) #Forma (n,m)
print("   tamaño:", a.size) #Tamaño
print("     tipo:", a.dtype) #Tipo de datos

dimension: 1
    forma: (4,)
   tamaño: 4
     tipo: int64


In [43]:
print("dimension:", b.ndim)
print("    forma:", b.shape)
print("   tamaño:", b.size)
print("     tipo:", b.dtype)

dimension: 2
    forma: (3, 3)
   tamaño: 9
     tipo: int64


In [44]:
print("dimension:", c.ndim)
print("    forma:", c.shape)
print("   tamaño:", c.size)
print("     tipo:", c.dtype)

dimension: 3
    forma: (3, 3, 3)
   tamaño: 27
     tipo: int64


## Métodos de los arrays de numpy

* Un método muy útil es `.reshape()`, que cambia la forma de un array según la nueva dimensión que le demos

In [45]:
# Cambia la forma de un array a las nuevas dimensiones

numpy.zeros(12).reshape(3, 4)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [46]:
numpy.zeros(12).reshape(4, 3)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [48]:
# Ojo! La nueva dimensión tiene que corresponder con el tamaño original
numpy.zeros(12).reshape(4, 4) #Porque una matrix 4x4 tiene 16 elementos

ValueError: cannot reshape array of size 12 into shape (4,4)

In [49]:
# Vector columna

numpy.zeros(12).reshape(12, 1)

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]])

* Si la dimensión es >2, se puede utilizar el atributo `.T` o el método `.transpose()`.

In [50]:
# Pero también podemos obtener el transpuesto a través del atributo .T, si la dimensión es mayor a 2

x = numpy.random.randint(10, size=(2, 2))
print(x)
print(x.T)
print(x.transpose())

[[0 3]
 [0 1]]
[[0 0]
 [3 1]]
[[0 0]
 [3 1]]


### Reducciones

* Hay métodos que implementan operaciones de reducción que podríamos hacer con funciones de la librería estándar de Python.
    * `min`, `max`, `sum`, etc.
* Pese a que estas operaciones se pueden hacer con las funciones equivalentes de Python, los métodos de los arrays de numpy son mucho más eficientes.

In [4]:
x = numpy.random.random(10000000) #10kk elementos

In [5]:
max(x)

0.9999996944232565

In [6]:
x.max() #La función de Numpy es más rápida

0.9999996944232565

In [8]:
# %timeit, en Jupyter, ejecuta una instrucción N veces midiendo su tiempo de ejecución

%timeit -n 3 max(x)

KeyboardInterrupt: 

In [None]:
%timeit -n 3 x.max()

* Existen muchos [metodos en la clase arrray](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.ndarray.html?highlight=ndarray#numpy.ndarray) que debemos utilizar en estos casos.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

In [None]:
# Ejemplo, sumatorio en Python

%timeit -n 10 sum(x)

In [None]:
%timeit -n 10 x.sum()

In [9]:
# Ejemplo: media, mediana y desviación estándar

x.mean(), x.std()

(0.5000019003913498, 0.2886865557019936)

* En arrays multidimensionales estos métodos operan con todo el array.
* Se puede especificar si se desea realizar la operación por columnas o por filas, mediante el parámetro `axis`.

In [10]:
x = numpy.random.randint(100, size=(10,10))
x

array([[10, 11, 82, 90, 89, 52, 76, 23, 75, 58],
       [23, 86, 55,  3, 82, 59, 55, 64, 50,  7],
       [67, 30, 46, 31, 11, 61, 76, 16, 42, 84],
       [98, 33,  8, 89, 70, 90,  3, 87, 56, 54],
       [57, 45, 64,  1, 63, 14, 78, 10, 57, 34],
       [23,  1, 16, 97, 70, 34, 34, 37, 67, 89],
       [30, 13,  8, 72,  3, 16, 61, 52, 28,  2],
       [86, 87,  1, 13, 99, 59, 69, 71,  6, 37],
       [22, 64, 98, 41, 63, 83, 85, 83,  2, 82],
       [42, 36, 49, 13, 15, 55, 73, 24, 66, 74]])

In [11]:
x.max()  # Máximo de toda la matriz

99

In [12]:
x.max(axis=0)  # Máximo de *cada una* de las columnas

array([98, 87, 98, 97, 99, 90, 85, 87, 75, 89])

In [13]:
x.max(axis=1)  # Máximo de *cada una* de las filas

array([90, 86, 84, 98, 78, 97, 72, 99, 98, 74])

## Operaciones con arrays

* Pese a que hemos visto que numpy es muy rápido, hay que saber utilizarlo.
* Si no se utiliza de la forma correcta, puede llegar a ser muy lento.
* Ejemplo, calcular el cuadrado de los elementos de un array

In [14]:
def calculate_square(array):
    output = numpy.empty(len(array))
    for idx, num in enumerate(array):
        output[idx] = num**2
    return output

In [15]:
x = numpy.random.randint(1, 100, size=5)
print(x)
print(calculate_square(x))

[29 10 95 29 68]
[ 841.  100. 9025.  841. 4624.]


In [16]:
y = numpy.random.randint(1, 100, size=50000000)
%timeit calculate_square(y)

KeyboardInterrupt: 

* Utilizar un bucle para operar con un array es *muy* lento.
* Numpy implementa operaciones aritméticas específicas, que operan sobre todos los elementos del array: _element wise_ 

In [17]:
print(x)
print(calculate_square(x))
print(x**2)

[29 10 95 29 68]
[ 841.  100. 9025.  841. 4624.]
[ 841  100 9025  841 4624]


In [18]:
%timeit y**2

632 ms ± 36.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [19]:
# También funciona con operaciones booleanas

y > 10

array([ True,  True,  True, ...,  True,  True,  True])

* Teniendo en cuenta esto, podemos combinarlo con el indexing para realizar accesos muy potentes.

In [20]:
# Ejemplo: seleccionar valores de y que sean mayores de 90

y[y > 90]

array([98, 95, 96, ..., 91, 98, 97])

## Cargando datasets desde ficheros

* Numpy tiene algunas funciones para leer datasets que estén en ficheros: https://docs.scipy.org/doc/numpy/reference/routines.io.html
* [`numpy.loadtxt()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html#numpy.loadtxt) lee un fichero en csv.