# Numpy

* Numpy es un paquete para computación científica en Python.
    * Entre otras cosas implementa soporte para vectores (arrays) y matrices.
* Los arrays (`ndarray`) de `numpy` son más eficientes que las listas.
    * Una lista en Python puede almacenar cualquier objeto de Python (`int`, `str`, etc.).
    * Un array de numpy *solo* puede almacenar elementos del mismo tipo, utilizando los tipos propios de `numpy`, que son compatibles con los tipos de Python.
    * Un array ocupa mucho menos espacio en memoria.

In [None]:
import numpy

## Tipos de datos en numpy

* `numpy` implementa sus propios tipos de datos

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

## Creando un array

* Un array se puede crear de diferentes maneras

In [None]:
# A partir de una lista

numpy.array([1, 2, 3, 4])

In [None]:
# No se pueden mezclar elementos de diferente tipo, por lo que numpy trata de convertirlos

numpy.array([1, 2.2, 3, 0])  # En este caso los cambia a float

In [None]:
# Lo mismo sucede si mezclamos tipos numericos y no numericos

numpy.array([1, 2, "a"])

In [None]:
# Podemos especificar el tipo directamente

numpy.array([1, 2, 3, 0], dtype="float32")  # En este caso los cambia a float

In [None]:
# También podemos crear arrays de cadenas de caracteres

numpy.array(["a", "b", "ccc"])

In [None]:
# Si tenemos listas anidadas nos creará una matriz

l = [[1, 2, 3], [4, 5, 6], [7, 8, 9,]]
numpy.array(l)

### Creando diferentes tipos de arrays

* `numpy` tiene diferentes formas de crear arrays que nos serán muy útiles durante nuestro trabajo

In [None]:
# Creando un array de ceros

numpy.zeros(10)  # Por defecto son floats

In [None]:
# Creando un array de ceros

numpy.zeros(10, dtype="int")

In [None]:
# Creando un array de unos

numpy.ones(10, dtype="int")

In [None]:
# El primer parámetro de numpy.array() (o numpy.ones(), numpy.zeros(), etc.) indica la dimensión, luego podemos hacer

numpy.zeros((4, 4), dtype="int")

In [None]:
# También podemos rellenar un array con una secuencia, similar a la función range() de Python

numpy.arange(0, 100, 25)

In [None]:
# ¿Números aleatorios? También

numpy.random.random(5)

## Propiedades y atributos de los arrays

* A un array se puede acceder de forma similar a una lista (indexing, slicing, etc.)
* Con arrays se pueden realizar operaciones, de forma similar a las litas.
* Como todo objeto en Python, podemos acceder a los atributos de los arrays.

In [None]:
a = numpy.random.randint(10, size=4)  # 1 dimension
b = numpy.random.randint(10, size=(3, 3))  # 2 dimensiones
c = numpy.random.randint(10, size=(3, 3, 3))  # 3 dimensiones

In [None]:
print(a)
print("--")
print(b)
print("--")
print(c)

### Indexing

In [None]:
print(a[1])
print(b[2, 2])
print(c[1, 1, 1])

In [None]:
print(a[-1])
print(b[-2, -2])
print(c[-1, -1, -1])

In [None]:
# También podemos asignar elementos

a[0] = 120
print(a)

* Una característica muy interesante es que se pueden seleccionar elementos a partir de otro array o bien a partir de una lista, incluso un array de booleanos.

In [None]:
z = numpy.random.randint(10, size=100)
z

In [None]:
select = numpy.array([1, 10, 20, 99])

z[select]

In [None]:
z[[1, 10, 20, 99]]

In [None]:
z = numpy.array([1, 2, 3, 4])
z[[True, False, True, False]]

### Slicing 

* Podemos obtener _slices_ de forma similar a las listas (`[start:stop:step]`).
* Para los arrays multidimensionales es igual, separando las diferentes _slices_ por comas

In [None]:
print(a[1:3])
print(b[1:3, 1:3])

* *OJO*: Un slice de numpy *NO* crea una copia!!!
* Si se quiere crear una copia hay que utilziar `.copy()`

In [None]:
test = numpy.zeros(10, dtype="int")
print(test)

In [None]:
aux = test[5:8]
print(aux)

In [None]:
aux[0] = 1
aux[1] = 2
aux[2] = 3
print(aux)

In [None]:
print(test)

### Seleccionando columnas o filas completas

* Se puede hacer de forma similar a un slice, pero utilizando también un índice

In [None]:
matrix = numpy.random.randint(10, size=(10,10))
matrix

In [None]:
matrix[:,5]  # Columna 5

In [None]:
matrix[4,:]  # Fila 4

### Atributos

* Los arrays de numpy tienen diferentes atributos que nos dan información del array

In [None]:
print("dimension:", a.ndim)
print("    forma:", a.shape)
print("   tamaño:", a.size)
print("     tipo:", a.dtype)

In [None]:
print("dimension:", b.ndim)
print("    forma:", b.shape)
print("   tamaño:", b.size)
print("     tipo:", b.dtype)

In [None]:
print("dimension:", c.ndim)
print("    forma:", c.shape)
print("   tamaño:", c.size)
print("     tipo:", c.dtype)

## Métodos de los arrays de numpy

* Un método muy útil es `.reshape()`, que cambia la forma de un array según la nueva dimensión que le demos

In [None]:
# Cambia la forma de un array a las nuevas dimensiones

numpy.zeros(12).reshape(3, 4)

In [None]:
numpy.zeros(12).reshape(4, 3)

In [None]:
# Ojo! La nueva dimensión tiene que corresponder con el tamaño original
numpy.zeros(12).reshape(4, 4)

In [None]:
# Vector columna

numpy.zeros(12).reshape(12, 1)

* Si la dimensión es >2, se puede utilizar el atributo `.T` o el método `.transpose()`.

In [None]:
# Pero también podemos obtener el transpuesto a través del atributo .T, si la dimensión es mayor a 2

x = numpy.random.randint(10, size=(2, 2))
print(x)
print(x.T)
print(x.transpose())

### Reducciones

* Hay métodos que implementan operaciones de reducción que podríamos hacer con funciones de la librería estándar de Python.
    * `min`, `max`, `sum`, etc.
* Pese a que estas operaciones se pueden hacer con las funciones equivalentes de Python, los métodos de los arrays de numpy son mucho más eficientes.

In [None]:
x = numpy.random.random(10000000)

In [None]:
max(x)

In [None]:
x.max()

In [None]:
# %timeit, en Jupyter, ejecuta una instrucción N veces midiendo su tiempo de ejecución

%timeit -n 10 max(x)

In [None]:
%timeit -n 10 x.max()

* Existen muchos [metodos en la clase arrray](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.ndarray.html?highlight=ndarray#numpy.ndarray) que debemos utilizar en estos casos.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

In [None]:
# Ejemplo, sumatorio en Python

%timeit -n 10 sum(x)

In [None]:
%timeit -n 10 x.sum()

In [None]:
# Ejemplo: media, mediana y desviación estándar

x.mean(), x.std()

* En arrays multidimensionales estos métodos operan con todo el array.
* Se puede especificar si se desea realizar la operación por columnas o por filas, mediante el parámetro `axis`.

In [None]:
x = numpy.random.randint(100, size=(10,10))
x

In [None]:
x.max()  # Máximo de toda la matriz

In [None]:
x.max(axis=0)  # Máximo de cada una de las columnas

In [None]:
x.max(axis=1)  # Máximo de cada una de las filas

## Operaciones con arrays

* Pese a que hemos visto que numpy es muy rápido, hay que saber utilizarlo.
* Si no se utiliza de la forma correcta, puede llegar a ser muy lento.
* Ejemplo, calcular el cuadrado de los elementos de un array

In [None]:
def calculate_square(array):
    output = numpy.empty(len(array))
    for idx, num in enumerate(array):
        output[idx] = num**2
    return output

In [None]:
x = numpy.random.randint(1, 100, size=5)
print(x)
print(calculate_square(x))

In [None]:
y = numpy.random.randint(1, 100, size=50000000)
%timeit calculate_square(y)

* Utilizar un bucle para operar con un array es *muy* lento.
* Numpy implementa operaciones aritméticas específicas, que operan sobre todos los elementos del array: _element wise_ 

In [None]:
print(x)
print(calculate_square(x))
print(x**2)

In [None]:
%timeit y**2

In [None]:
# También funciona con operaciones booleanas

y > 10

* Teniendo en cuenta esto, podemos combinarlo con el indexing para realizar accesos muy potentes.

In [None]:
# Ejemplo: seleccionar valores de y que sean mayores de 90

y[y > 90]

## Cargando datasets desde ficheros

* Numpy tiene algunas funciones para leer datasets que estén en ficheros: https://docs.scipy.org/doc/numpy/reference/routines.io.html
* [`numpy.loadtxt()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html#numpy.loadtxt) lee un fichero en csv.