# Numpy

* Numpy es un paquete para computación científica en Python.
    * Entre otras cosas implementa soporte para vectores (arrays) y matrices.
* Los arrays (`ndarray`) de `numpy` son más eficientes que las listas.
    * Una lista en Python puede almacenar cualquier objeto de Python (`int`, `str`, etc.).
    * Un array de numpy *solo* puede almacenar elementos del mismo tipo, utilizando los tipos propios de `numpy`, que son compatibles con los tipos de Python.
    * Un array ocupa mucho menos espacio en memoria.
    
 
 
Comentario Estela.
* Los arrays son más eficientes que las listas.
* En python un entero es un objeto mientras que en otros lenguajes un entero es directamente un número. Con Numpy se trabajaría como en otros lenguajes es decir con números.

In [1]:
import numpy

## Tipos de datos en numpy

* `numpy` implementa sus propios tipos de datos

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

## Creando un array

* Un array se puede crear de diferentes maneras

In [2]:
# A partir de una lista

numpy.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
# No se pueden mezclar elementos de diferente tipo, por lo que numpy trata de convertirlos

numpy.array([1, 2.2, 3, 0])  # En este caso los cambia a float

array([1. , 2.2, 3. , 0. ])

In [4]:
# Lo mismo sucede si mezclamos tipos numericos y no numericos

numpy.array([1, 2, "a"])

array(['1', '2', 'a'], dtype='<U21')

In [5]:
# Podemos especificar el tipo directamente

numpy.array([1, 2, 3, 0], dtype="float32")  # En este caso los cambia a float

array([1., 2., 3., 0.], dtype=float32)

In [6]:
# También podemos crear arrays de cadenas de caracteres

numpy.array(["a", "b", "ccc"])

array(['a', 'b', 'ccc'], dtype='<U3')

In [7]:
# Si tenemos listas anidadas nos creará una matriz

l = [[1, 2, 3], [4, 5, 6], [7, 8, 9,]]
numpy.array(l)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Creando diferentes tipos de arrays

* `numpy` tiene diferentes formas de crear arrays que nos serán muy útiles durante nuestro trabajo

In [8]:
# Creando un array de ceros

numpy.zeros(10)  # Por defecto son floats

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [9]:
# Creando un array de ceros

numpy.zeros(10, dtype="int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
# Creando un array de unos

numpy.ones(10, dtype="int")

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [11]:
# El primer parámetro de numpy.array() (o numpy.ones(), numpy.zeros(), etc.) indica la dimensión, luego podemos hacer

numpy.zeros((4, 4), dtype="int")

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [12]:
# También podemos rellenar un array con una secuencia, similar a la función range() de Python

numpy.arange(0, 100, 25)

array([ 0, 25, 50, 75])

In [14]:
# ¿Números aleatorios? También

numpy.random.random(5)

array([0.29455662, 0.48600089, 0.70550553, 0.97235217, 0.41795656])

## Propiedades y atributos de los arrays

* A un array se puede acceder de forma similar a una lista (indexing, slicing, etc.)
* Con arrays se pueden realizar operaciones, de forma similar a las litas.
* Como todo objeto en Python, podemos acceder a los atributos de los arrays.

In [15]:
a = numpy.random.randint(10, size=4)  # 1 dimension
b = numpy.random.randint(10, size=(3, 3))  # 2 dimensiones
c = numpy.random.randint(10, size=(3, 3, 3))  # 3 dimensiones

In [16]:
print(a)
print("--")
print(b)
print("--")
print(c)

[4 2 8 7]
--
[[7 1 1]
 [4 1 2]
 [0 1 7]]
--
[[[0 6 4]
  [1 0 3]
  [8 5 5]]

 [[8 8 7]
  [4 3 8]
  [9 9 3]]

 [[7 1 6]
  [9 9 9]
  [3 0 1]]]


### Indexing

In [17]:
print(a[1])
print(b[2, 2])
print(c[1, 1, 1])

2
7
3


In [18]:
print(a[-1])
print(b[-2, -2])
print(c[-1, -1, -1])

7
1
1


In [19]:
# También podemos asignar elementos

a[0] = 120
print(a)

[120   2   8   7]


* Una característica muy interesante es que se pueden seleccionar elementos a partir de otro array o bien a partir de una lista, incluso un array de booleanos.

In [25]:
z = numpy.random.randint(10, size=100)
z

array([5, 0, 8, 8, 0, 6, 3, 5, 6, 2, 1, 6, 4, 8, 7, 0, 8, 0, 3, 9, 0, 7,
       0, 1, 3, 1, 4, 0, 4, 2, 1, 1, 2, 5, 9, 8, 9, 4, 7, 1, 9, 8, 1, 5,
       2, 2, 8, 2, 7, 7, 3, 0, 8, 9, 8, 4, 3, 9, 8, 1, 0, 1, 2, 6, 9, 5,
       9, 1, 3, 2, 8, 5, 4, 3, 0, 0, 1, 0, 4, 3, 9, 5, 8, 8, 4, 4, 8, 9,
       8, 5, 1, 0, 5, 1, 8, 9, 1, 6, 5, 3])

In [21]:
select = numpy.array([1, 10, 20, 99])

z[select]

array([0, 6, 0, 3])

In [22]:
z[[1, 10, 20, 99]]

array([0, 6, 0, 3])

In [23]:
z = numpy.array([1, 2, 3, 4])
z[[True, False, True, False]]

array([1, 3])

### Slicing 

* Podemos obtener _slices_ de forma similar a las listas (`[start:stop:step]`).
* Para los arrays multidimensionales es igual, separando las diferentes _slices_ por comas

In [28]:
print(a[1:3])
print(b[1:3, 1:3])


[2 8]
[[1 2]
 [1 7]]


* *OJO*: Un slice de numpy *NO* crea una copia!!!
* Si se quiere crear una copia hay que utilziar `.copy()`

In [29]:
test = numpy.zeros(10, dtype="int")
print(test)

[0 0 0 0 0 0 0 0 0 0]


In [30]:
aux = test[5:8]
print(aux)

[0 0 0]


In [31]:
aux[0] = 1
aux[1] = 2
aux[2] = 3
print(aux)

[1 2 3]


In [32]:
print(test)

[0 0 0 0 0 1 2 3 0 0]


### Seleccionando columnas o filas completas

* Se puede hacer de forma similar a un slice, pero utilizando también un índice

In [33]:
matrix = numpy.random.randint(10, size=(10,10))
matrix

array([[3, 0, 9, 2, 7, 1, 4, 0, 6, 2],
       [2, 5, 1, 4, 1, 0, 6, 3, 4, 1],
       [4, 3, 8, 5, 1, 1, 0, 1, 6, 5],
       [4, 8, 5, 7, 5, 7, 7, 0, 0, 5],
       [9, 8, 5, 7, 0, 6, 2, 4, 3, 6],
       [1, 8, 1, 7, 7, 2, 1, 5, 4, 8],
       [4, 8, 4, 6, 5, 3, 6, 6, 3, 0],
       [0, 5, 7, 6, 3, 7, 1, 7, 6, 8],
       [4, 9, 2, 0, 8, 1, 6, 6, 6, 7],
       [1, 4, 1, 5, 5, 2, 1, 7, 4, 6]])

In [41]:
matrix[:,5]  # Columna 5

array([1, 0, 1, 7, 6, 2, 3, 7, 1, 2])

In [39]:
matrix[4,:]  # Fila 4


array([9, 8, 5, 7, 0, 6, 2, 4, 3, 6])

### Atributos

* Los arrays de numpy tienen diferentes atributos que nos dan información del array

In [36]:
print("dimension:", a.ndim)
print("    forma:", a.shape)
print("   tamaño:", a.size)
print("     tipo:", a.dtype)

dimension: 1
    forma: (4,)
   tamaño: 4
     tipo: int64


In [42]:
print("dimension:", b.ndim)
print("    forma:", b.shape)
print("   tamaño:", b.size)
print("     tipo:", b.dtype)

dimension: 2
    forma: (3, 3)
   tamaño: 9
     tipo: int64


In [43]:
print("dimension:", c.ndim)
print("    forma:", c.shape)
print("   tamaño:", c.size)
print("     tipo:", c.dtype)

dimension: 3
    forma: (3, 3, 3)
   tamaño: 27
     tipo: int64


## Métodos de los arrays de numpy

* Un método muy útil es `.reshape()`, que cambia la forma de un array según la nueva dimensión que le demos

In [44]:
# Cambia la forma de un array a las nuevas dimensiones

numpy.zeros(12).reshape(3, 4)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [45]:
numpy.zeros(12).reshape(4, 3)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [46]:
# Ojo! La nueva dimensión tiene que corresponder con el tamaño original
numpy.zeros(12).reshape(4, 4)

ValueError: cannot reshape array of size 12 into shape (4,4)

In [47]:
# Vector columna

numpy.zeros(12).reshape(12, 1)

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]])

* Si la dimensión es >2, se puede utilizar el atributo `.T` o el método `.transpose()`.

In [48]:
# Pero también podemos obtener el transpuesto a través del atributo .T, si la dimensión es mayor a 2

x = numpy.random.randint(10, size=(2, 2))
print(x)
print(x.T)
print(x.transpose())

[[7 0]
 [7 0]]
[[7 7]
 [0 0]]
[[7 7]
 [0 0]]


### Reducciones

* Hay métodos que implementan operaciones de reducción que podríamos hacer con funciones de la librería estándar de Python.
    * `min`, `max`, `sum`, etc.
* Pese a que estas operaciones se pueden hacer con las funciones equivalentes de Python, los métodos de los arrays de numpy son mucho más eficientes.

In [49]:
x = numpy.random.random(10000000)

In [50]:
max(x) # funcion de python

0.9999999844653938

In [53]:
x.max() #metodo de numpy son más eficientes.

0.9999999844653938

In [54]:
# %timeit, en Jupyter, ejecuta una instrucción N veces midiendo su tiempo de ejecución

%timeit -n 10 max(x)

1.42 s ± 83.1 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [55]:
%timeit -n 10 x.max()

45.7 ms ± 4.78 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [58]:
numpy.nan==numpy.nan
numpy.nan!=numpy.nan
numpy.nan+5000

nan

* Existen muchos [metodos en la clase arrray](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.ndarray.html?highlight=ndarray#numpy.ndarray) que debemos utilizar en estos casos.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

In [59]:
# Ejemplo, sumatorio en Python

%timeit -n 10 sum(x)

1.54 s ± 27.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [60]:
%timeit -n 10 x.sum()

28.6 ms ± 2.74 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [61]:
# Ejemplo: media, mediana y desviación estándar

x.mean(), x.std()

(0.4998396877774963, 0.28868666532419557)

* En arrays multidimensionales estos métodos operan con todo el array.
* Se puede especificar si se desea realizar la operación por columnas o por filas, mediante el parámetro `axis`.

In [62]:
x = numpy.random.randint(100, size=(10,10))
x

array([[93, 86, 72, 71, 20,  4, 85, 39, 73, 47],
       [57, 97, 57, 37, 76, 69, 87, 87,  4, 90],
       [ 3, 53, 16, 35, 97,  4, 99, 97, 96, 40],
       [20, 91,  3, 22, 77, 88,  6, 16, 23, 56],
       [16, 18, 30, 47,  0, 65, 27, 98, 68, 37],
       [99, 76, 45, 96, 65, 12, 57, 58, 28, 79],
       [77, 26, 81, 82, 53, 25, 77, 57, 14, 17],
       [71, 48, 29, 42, 34, 79, 25, 67, 89, 42],
       [92, 76, 16, 84, 92, 48, 21, 48,  0, 94],
       [79, 36, 48, 97, 12, 32, 28, 85, 75, 22]])

In [63]:
x.max()  # Máximo de toda la matriz

99

In [64]:
x.max(axis=0)  # Máximo de cada una de las columnas

array([99, 97, 81, 97, 97, 88, 99, 98, 96, 94])

In [65]:
x.max(axis=1)  # Máximo de cada una de las filas

array([93, 97, 99, 91, 98, 99, 82, 89, 94, 97])

## Operaciones con arrays

* Pese a que hemos visto que numpy es muy rápido, hay que saber utilizarlo.
* Si no se utiliza de la forma correcta, puede llegar a ser muy lento.
* Ejemplo, calcular el cuadrado de los elementos de un array

In [66]:
def calculate_square(array):
    output = numpy.empty(len(array))
    for idx, num in enumerate(array):
        output[idx] = num**2
    return output

In [67]:
x = numpy.random.randint(1, 100, size=5)
print(x)
print(calculate_square(x))

[28 22 75 80 14]
[ 784.  484. 5625. 6400.  196.]


In [68]:
y = numpy.random.randint(1, 100, size=50000000)
%timeit calculate_square(y)

33.6 s ± 529 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


* Utilizar un bucle para operar con un array es *muy* lento.
* Numpy implementa operaciones aritméticas específicas, que operan sobre todos los elementos del array: _element wise_ 

In [69]:
print(x)
print(calculate_square(x))
print(x**2)

[28 22 75 80 14]
[ 784.  484. 5625. 6400.  196.]
[ 784  484 5625 6400  196]


In [None]:
%timeit y**2

In [70]:
# También funciona con operaciones booleanas

y > 10

array([ True,  True,  True, ...,  True,  True,  True])

* Teniendo en cuenta esto, podemos combinarlo con el indexing para realizar accesos muy potentes.

In [71]:
# Ejemplo: seleccionar valores de y que sean mayores de 90

y[y > 90]

array([95, 92, 96, ..., 95, 95, 91])

## Cargando datasets desde ficheros

* Numpy tiene algunas funciones para leer datasets que estén en ficheros: https://docs.scipy.org/doc/numpy/reference/routines.io.html
* [`numpy.loadtxt()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html#numpy.loadtxt) lee un fichero en csv.