# Numpy

* Numpy es un paquete para computación científica en Python.
    * Entre otras cosas implementa soporte para vectores (arrays) y matrices.
* Los arrays (`ndarray`) de `numpy` son más eficientes que las listas.
    * Una lista en Python puede almacenar cualquier objeto de Python (`int`, `str`, etc.).
    * Un array de numpy *solo* puede almacenar elementos del mismo tipo, utilizando los tipos propios de `numpy`, que son compatibles con los tipos de Python.
    * Un array ocupa mucho menos espacio en memoria.

In [1]:
import numpy

## Tipos de datos en numpy

* `numpy` implementa sus propios tipos de datos

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

## Creando un array

* Un array se puede crear de diferentes maneras

In [2]:
# A partir de una lista

numpy.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
# No se pueden mezclar elementos de diferente tipo, por lo que numpy trata de convertirlos

numpy.array([1, 2.2, 3, 0])  # En este caso los cambia a float

array([1. , 2.2, 3. , 0. ])

In [4]:
# Lo mismo sucede si mezclamos tipos numericos y no numericos

numpy.array([1, 2, "a"])

array(['1', '2', 'a'], dtype='<U21')

In [5]:
# Podemos especificar el tipo directamente

numpy.array([1, 2, 3, 0], dtype="float32")  # En este caso los cambia a float

array([1., 2., 3., 0.], dtype=float32)

In [6]:
# También podemos crear arrays de cadenas de caracteres

numpy.array(["a", "b", "ccc"])

array(['a', 'b', 'ccc'], dtype='<U3')

In [24]:
# Si tenemos listas anidadas nos creará una matriz

l = [[1, 2, 3], [4, 5, 6], [7, 8, 9,]]
numpy.array(l)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Creando diferentes tipos de arrays

* `numpy` tiene diferentes formas de crear arrays que nos serán muy útiles durante nuestro trabajo

In [25]:
# Creando un array de ceros

numpy.zeros(10)  # Por defecto son floats

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [26]:
# Creando un array de ceros

numpy.zeros(10, dtype="int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [34]:
# Creando un array de unos

numpy.ones(10, dtype="int")

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [30]:
# El primer parámetro de numpy.array() (o numpy.ones(), numpy.zeros(), etc.) indica la dimensión, luego podemos hacer

numpy.zeros((4, 4), dtype="int")

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [35]:
# También podemos rellenar un array con una secuencia, similar a la función range() de Python

numpy.arange(0, 100, 25)

array([ 0, 25, 50, 75])

In [36]:
# ¿Números aleatorios? También

numpy.random.random(5)

array([0.66617355, 0.99185263, 0.44406941, 0.02733535, 0.66837757])

## Propiedades y atributos de los arrays

* A un array se puede acceder de forma similar a una lista (indexing, slicing, etc.)
* Con arrays se pueden realizar operaciones, de forma similar a las litas.
* Como todo objeto en Python, podemos acceder a los atributos de los arrays.

In [37]:
a = numpy.random.randint(10, size=4)  # 1 dimension
b = numpy.random.randint(10, size=(3, 3))  # 2 dimensiones
c = numpy.random.randint(10, size=(3, 3, 3))  # 3 dimensiones

In [38]:
print(a)
print("--")
print(b)
print("--")
print(c)

[8 9 7 2]
--
[[5 1 1]
 [8 3 3]
 [5 2 6]]
--
[[[2 9 2]
  [1 8 9]
  [6 5 7]]

 [[3 3 5]
  [8 0 6]
  [5 5 5]]

 [[1 3 5]
  [0 1 3]
  [3 7 2]]]


### Indexing

In [39]:
print(a[1])
print(b[2, 2])
print(c[1, 1, 1])

9
6
0


In [40]:
print(a[-1])
print(b[-2, -2])
print(c[-1, -1, -1])

2
3
2


In [41]:
# También podemos asignar elementos

a[0] = 120
print(a)

[120   9   7   2]


* Una característica muy interesante es que se pueden seleccionar elementos a partir de otro array o bien a partir de una lista, incluso un array de booleanos.

In [78]:
z = numpy.random.randint(10, size=100)
z

array([3, 8, 0, 7, 7, 1, 3, 7, 0, 0, 9, 9, 6, 6, 7, 1, 7, 0, 2, 8, 0, 6,
       0, 5, 2, 6, 3, 2, 2, 1, 3, 7, 8, 3, 5, 1, 0, 6, 2, 6, 6, 5, 5, 0,
       3, 6, 4, 3, 7, 4, 5, 4, 2, 4, 5, 7, 6, 2, 2, 7, 1, 8, 2, 8, 5, 1,
       1, 2, 2, 5, 7, 9, 0, 4, 7, 9, 9, 8, 5, 5, 6, 7, 0, 5, 8, 1, 1, 4,
       6, 0, 8, 8, 8, 3, 1, 3, 8, 7, 6, 9])

In [79]:
select = numpy.array([1, 10, 20, 99])

z[select]

array([8, 9, 0, 9])

In [80]:
z[[1, 10, 20, 99]]

array([8, 9, 0, 9])

In [45]:
z = numpy.array([1, 2, 3, 4])
z[[True, False, True, False]]

array([1, 3])

### Slicing 

* Podemos obtener _slices_ de forma similar a las listas (`[start:stop:step]`).
* Para los arrays multidimensionales es igual, separando las diferentes _slices_ por comas

In [46]:
print(a[1:3])
print(b[1:3, 1:3])

[9 7]
[[3 3]
 [2 6]]


* *OJO*: Un slice de numpy *NO* crea una copia!!!
* Si se quiere crear una copia hay que utilziar `.copy()`

In [57]:
test = numpy.zeros(10, dtype="int")
print(test)

[0 0 0 0 0 0 0 0 0 0]


In [61]:
aux = test[5:8]
print(aux)

[0 0 0]


In [62]:
aux[0] = 1
aux[1] = 2
aux[2] = 3
print(aux)

[1 2 3]


In [63]:
print(test)

[0 0 0 0 0 1 2 3 0 0]


### Seleccionando columnas o filas completas

* Se puede hacer de forma similar a un slice, pero utilizando también un índice

In [67]:
matrix = numpy.random.randint(10, size=(10,10))
matrix

array([[1, 2, 3, 8, 9, 6, 2, 2, 7, 1],
       [3, 9, 6, 8, 9, 1, 5, 1, 7, 4],
       [5, 2, 3, 5, 6, 8, 0, 0, 2, 5],
       [9, 0, 7, 5, 5, 7, 3, 8, 6, 5],
       [1, 0, 8, 9, 9, 0, 0, 9, 5, 0],
       [6, 9, 1, 9, 5, 7, 5, 6, 7, 1],
       [2, 3, 1, 9, 1, 8, 0, 5, 9, 2],
       [3, 3, 0, 0, 4, 8, 2, 4, 4, 6],
       [1, 6, 6, 9, 3, 3, 5, 2, 0, 0],
       [6, 3, 4, 8, 9, 4, 6, 2, 4, 1]])

In [68]:
matrix[:,5]  # Columna 5

array([6, 1, 8, 7, 0, 7, 8, 8, 3, 4])

In [69]:
matrix[4,:]  # Fila 4

array([1, 0, 8, 9, 9, 0, 0, 9, 5, 0])

### Atributos

* Los arrays de numpy tienen diferentes atributos que nos dan información del array

In [81]:
print("dimension:", a.ndim)
print("    forma:", a.shape)
print("   tamaño:", a.size)
print("     tipo:", a.dtype)

dimension: 1
    forma: (4,)
   tamaño: 4
     tipo: int64


In [82]:
print("dimension:", b.ndim)
print("    forma:", b.shape)
print("   tamaño:", b.size)
print("     tipo:", b.dtype)

dimension: 2
    forma: (3, 3)
   tamaño: 9
     tipo: int64


In [83]:
print("dimension:", c.ndim)
print("    forma:", c.shape)
print("   tamaño:", c.size)
print("     tipo:", c.dtype)

dimension: 3
    forma: (3, 3, 3)
   tamaño: 27
     tipo: int64


## Métodos de los arrays de numpy

* Un método muy útil es `.reshape()`, que cambia la forma de un array según la nueva dimensión que le demos

In [85]:
# Cambia la forma de un array a las nuevas dimensiones

numpy.zeros(12).reshape(3, 4)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [86]:
numpy.zeros(12).reshape(4, 3)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [87]:
# Ojo! La nueva dimensión tiene que corresponder con el tamaño original
numpy.zeros(12).reshape(4, 4)

ValueError: cannot reshape array of size 12 into shape (4,4)

In [92]:
# Vector columna

numpy.zeros(12).reshape(12, 1)

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]])

* Si la dimensión es >2, se puede utilizar el atributo `.T` o el método `.transpose()`.

In [103]:
# Pero también podemos obtener el transpuesto a través del atributo .T, si la dimensión es mayor a 2

x = numpy.random.randint(10, size=(2, 2))
print(x)
print(x.T)
print(x.transpose())

[[8 5]
 [4 5]]
[[8 4]
 [5 5]]
[[8 4]
 [5 5]]


### Reducciones

* Hay métodos que implementan operaciones de reducción que podríamos hacer con funciones de la librería estándar de Python.
    * `min`, `max`, `sum`, etc.
* Pese a que estas operaciones se pueden hacer con las funciones equivalentes de Python, los métodos de los arrays de numpy son mucho más eficientes.

In [96]:
x = numpy.random.random(1000000)

In [97]:
max(x)

0.9999996420311867

In [98]:
x.max()

0.9999996420311867

In [99]:
# %timeit, en Jupyter, ejecuta una instrucción N veces midiendo su tiempo de ejecución

%timeit -n 10 max(x)

116 ms ± 1.21 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [100]:
%timeit -n 10 x.max()

The slowest run took 4.69 times longer than the fastest. This could mean that an intermediate result is being cached.
961 µs ± 798 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


* Existen muchos [metodos en la clase arrray](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.ndarray.html?highlight=ndarray#numpy.ndarray) que debemos utilizar en estos casos.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

In [None]:
# Ejemplo, sumatorio en Python

%timeit -n 10 sum(x)

In [None]:
%timeit -n 10 x.sum()

In [None]:
# Ejemplo: media, mediana y desviación estándar

x.mean(), x.std()

* En arrays multidimensionales estos métodos operan con todo el array.
* Se puede especificar si se desea realizar la operación por columnas o por filas, mediante el parámetro `axis`.

In [104]:
x = numpy.random.randint(100, size=(10,10))
x

array([[ 6, 20, 72, 82, 45, 75, 71, 11, 28, 11],
       [85, 67,  2, 56, 29,  8, 21,  7,  9, 35],
       [23,  2, 16, 66, 23, 68,  4, 57, 35,  5],
       [59, 28, 57, 66, 28, 45, 28, 41,  3, 78],
       [ 9, 81, 56, 92, 65, 28,  8, 45, 49, 82],
       [33, 92,  8, 71, 30, 16, 97, 33, 58, 53],
       [69, 32,  2, 11, 63, 41, 75, 25, 75, 67],
       [ 3, 79,  6,  0, 26,  5,  7, 69, 94, 71],
       [48, 40, 34, 60, 75, 74, 57, 60, 70, 62],
       [38, 44, 39, 11,  4, 60, 99, 42, 56, 98]])

In [105]:
x.max()  # Máximo de toda la matriz

99

In [106]:
x.max(axis=0)  # Máximo de cada una de las columnas

array([85, 92, 72, 92, 75, 75, 99, 69, 94, 98])

In [107]:
x.max(axis=1)  # Máximo de cada una de las filas

array([82, 85, 68, 78, 92, 97, 75, 94, 75, 99])

## Operaciones con arrays

* Pese a que hemos visto que numpy es muy rápido, hay que saber utilizarlo.
* Si no se utiliza de la forma correcta, puede llegar a ser muy lento.
* Ejemplo, calcular el cuadrado de los elementos de un array

In [108]:
def calculate_square(array):
    output = numpy.empty(len(array))
    for idx, num in enumerate(array):
        output[idx] = num**2
    return output

In [111]:
x = numpy.random.randint(1, 100, size=5)
print(x)
print(calculate_square(x))

[35 39  3 20  2]
[1225. 1521.    9.  400.    4.]


In [114]:
y = numpy.random.randint(1, 100, size=50000000)
%timeit calculate_square(y)

KeyboardInterrupt: 

* Utilizar un bucle para operar con un array es *muy* lento.
* Numpy implementa operaciones aritméticas específicas, que operan sobre todos los elementos del array: _element wise_ 

In [112]:
print(x)
print(calculate_square(x))
print(x**2)

[35 39  3 20  2]
[1225. 1521.    9.  400.    4.]
[1225 1521    9  400    4]


In [115]:
%timeit y**2

665 ms ± 19.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [116]:
# También funciona con operaciones booleanas

y > 10

array([False,  True,  True, ...,  True,  True,  True])

* Teniendo en cuenta esto, podemos combinarlo con el indexing para realizar accesos muy potentes.

In [117]:
# Ejemplo: seleccionar valores de y que sean mayores de 90

y[y > 90]

array([92, 94, 93, ..., 98, 91, 99])

## Cargando datasets desde ficheros

* Numpy tiene algunas funciones para leer datasets que estén en ficheros: https://docs.scipy.org/doc/numpy/reference/routines.io.html
* [`numpy.loadtxt()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html#numpy.loadtxt) lee un fichero en csv.