In [1]:
import sys

In [2]:
import numpy as np

# Numpy

Numpy proporciona un nuevo contenedor de datos a Python, los `ndarray`s, además de funcionalidad especializada para poder manipularlos de forma eficiente.

## ¿Por qué un nuevo contenedor de datos?

En python, disponemos, de partida, de diversos contenedores de datos, listas, tuplas, diccionarios, conjuntos,..., ¿por qué añadir uno más?.

¡Por conveniencia!, a pesar de la pérdida de flexibilidad. Es una solución de compromiso.

* Uso de memoria más eficiente: Por ejemplo, una lista puede contener distintos tipos de objetos lo que provoca que python deba guardar información del tipo de cada elemento contenido en la lista. Por otra parte, un `ndarray` es contiene tipos homogéneos, es decir, todos los elementos son del mismo tipo, por lo que la información del tipo solo debe guardarse una vez independientemente del número de elementos que tenda el `ndarray`.


![arrays_vs_listas](../../images/03_01_array_vs_list.png)
***(imagen por Jake VanderPlas y extraída [de GitHub](https://github.com/jakevdp/PythonDataScienceHandbook)).***

* Más rápido: Por ejemplo, en una lista que consta de elementos con diferentes tipos Python debe realizar trabajos extra para saber si los tipos son compatibles con las operaciones que estamos realizando. Cuando trabajamos con un `ndarray` ya podemos saber eso de partida y podemos tener operaciones más eficientes (además de que mucha funcionalidad está programada en C, C++, Cython, Fortran).


* Operaciones vectorizadas


* Funcionalidad extra: Muchas operaciones de álgebra lineal, transformadas rápidas de Fourier, estadítica básica, histogramas,...


* Acceso a los elementos más conveniente: Indexación más avanzada que con los tipos normales de Python


* ...

Uso de memoria

In [3]:
# AVISO: SYS.GETSYZEOF NO ES FIABLE

lista = list(range(5_000_000))
arr = np.array(lista, dtype=np.uint32)
print("5 millones de elementos")
print(sys.getsizeof(lista))
print(sys.getsizeof(arr))

print()

lista = list(range(100))
arr = np.array(lista, dtype=np.uint8)
print("100 elementos")
print(sys.getsizeof(lista))
print(sys.getsizeof(arr))

5 millones de elementos
22500060
20000048

100 elementos
508
148


Velocidad de operaciones

In [4]:
a = list(range(1000000))
%timeit sum(a)
print(sum(a))

77.7 ms ± 5.35 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
499999500000


In [5]:
a = np.array(a)
%timeit np.sum(a)
print(np.sum(a))

647 µs ± 9.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
1783293664


Operaciones vectorizadas

In [6]:
# Suma de dos vectores elemento a elemento
a = [1, 1, 1]
b = [3, 4, 3]
print(a + b)
print('Fail')

[1, 1, 1, 3, 4, 3]
Fail


In [7]:
# Suma de dos vectores elemento a elemento
a = np.array([1, 1, 1])
b = np.array([3, 4, 3])
print(a + b)
print('\o/')

[4 5 4]
\o/


Funcionalidad más conveniente

In [8]:
# suma acumulada
a = list(range(100))
print([sum(a[:i+1]) for i in a])

a = np.array(a)
print(a.cumsum())

[0, 1, 3, 6, 10, 15, 21, 28, 36, 45, 55, 66, 78, 91, 105, 120, 136, 153, 171, 190, 210, 231, 253, 276, 300, 325, 351, 378, 406, 435, 465, 496, 528, 561, 595, 630, 666, 703, 741, 780, 820, 861, 903, 946, 990, 1035, 1081, 1128, 1176, 1225, 1275, 1326, 1378, 1431, 1485, 1540, 1596, 1653, 1711, 1770, 1830, 1891, 1953, 2016, 2080, 2145, 2211, 2278, 2346, 2415, 2485, 2556, 2628, 2701, 2775, 2850, 2926, 3003, 3081, 3160, 3240, 3321, 3403, 3486, 3570, 3655, 3741, 3828, 3916, 4005, 4095, 4186, 4278, 4371, 4465, 4560, 4656, 4753, 4851, 4950]
[   0    1    3    6   10   15   21   28   36   45   55   66   78   91  105
  120  136  153  171  190  210  231  253  276  300  325  351  378  406  435
  465  496  528  561  595  630  666  703  741  780  820  861  903  946  990
 1035 1081 1128 1176 1225 1275 1326 1378 1431 1485 1540 1596 1653 1711 1770
 1830 1891 1953 2016 2080 2145 2211 2278 2346 2415 2485 2556 2628 2701 2775
 2850 2926 3003 3081 3160 3240 3321 3403 3486 3570 3655 3741 3828 3916 4005
 4095 

Acceso a elementos más conveniente

In [9]:
a = [[11, 12, 13],
     [21, 22, 23],
     [31, 32, 33]]
print('acceso a la primera fila: ', a[0])
print('acceso a la primera columna: ', a[:][0], ' Fail!!!')

acceso a la primera fila:  [11, 12, 13]
acceso a la primera columna:  [11, 12, 13]  Fail!!!


In [10]:
a = np.array(a)
print('acceso a la primera fila: ', a[0])
print('acceso a la primera columna: ', a[:,0], ' \o/')

acceso a la primera fila:  [11 12 13]
acceso a la primera columna:  [11 21 31]  \o/


...

Recapitulando un poco.

***Los `ndarray`s son contenedores multidimensionales, homogéneos con elementos de tamaño fijo, de dimesión predefinida.***

## Tipos de datos

Como los arrays deben ser homogéneos tenemos tipos de datos. Algunos de ellos se pueden ver en la tabla de más abajo:

| Data type	    | Descripción |
|---------------|-------------|
| ``bool_``     | Booleano (True o False) almacenado como un Byte |
| ``int_``      | El tipo entero por defecto (igual que el `long` de C; normalmente será `int64` o `int32`)| 
| ``intc``      | Idéntico al ``int`` de C (normalmente `int32` o `int64`)| 
| ``intp``      | Entero usado para indexación (igual que `ssize_t` en C; normalmente `int32` o `int64`)| 
| ``int8``      | Byte (de -128 a 127)| 
| ``int16``     | Entero (de -32768 a 32767)|
| ``int32``     | Entero (de -2147483648 a 2147483647)|
| ``int64``     | Entero (de -9223372036854775808 a 9223372036854775807)| 
| ``uint8``     | Entero sin signo (de 0 a 255)| 
| ``uint16``    | Entero sin signo (de 0 a 65535)| 
| ``uint32``    | Entero sin signo (de 0 a 4294967295)| 
| ``uint64``    | Entero sin signo (de 0 a 18446744073709551615)| 
| ``float_``    | Atajo para ``float64``.| 
| ``float16``   | Half precision float: un bit para el signo, 5 bits para el exponente, 10 bits para la mantissa| 
| ``float32``   | Single precision float: un bit para el signo, 8 bits para el exponente, 23 bits para la mantissa|
| ``float64``   | Double precision float: un bit para el signo, 11 bits para el exponente, 52 bits para la mantissa|
| ``complex_``  | Atajo para `complex128`.| 
| ``complex64`` | Número complejo, represantedo por dos *floats* de 32-bits| 
| ``complex128``| Número complejo, represantedo por dos *floats* de 64-bits| 

Es posible tener una especificación de tipos más detallada, pudiendo especificar números con *big endian* o *little endian*. No vamos a ver esto en este momento.

El tipo por defecto que usa `numpy` al crear un *ndarray* es `np.float_`, siempre que no específiquemos explícitamente el tipo a usar.

Por ejemplo, un array de tipo `np.uint8` puede tener los siguientes valores:

In [33]:
import itertools

for i, bits in enumerate(itertools.product((0, 1), repeat=8)):
    print(i, bits)

0 (0, 0, 0, 0, 0, 0, 0, 0)
1 (0, 0, 0, 0, 0, 0, 0, 1)
2 (0, 0, 0, 0, 0, 0, 1, 0)
3 (0, 0, 0, 0, 0, 0, 1, 1)
4 (0, 0, 0, 0, 0, 1, 0, 0)
5 (0, 0, 0, 0, 0, 1, 0, 1)
6 (0, 0, 0, 0, 0, 1, 1, 0)
7 (0, 0, 0, 0, 0, 1, 1, 1)
8 (0, 0, 0, 0, 1, 0, 0, 0)
9 (0, 0, 0, 0, 1, 0, 0, 1)
10 (0, 0, 0, 0, 1, 0, 1, 0)
11 (0, 0, 0, 0, 1, 0, 1, 1)
12 (0, 0, 0, 0, 1, 1, 0, 0)
13 (0, 0, 0, 0, 1, 1, 0, 1)
14 (0, 0, 0, 0, 1, 1, 1, 0)
15 (0, 0, 0, 0, 1, 1, 1, 1)
16 (0, 0, 0, 1, 0, 0, 0, 0)
17 (0, 0, 0, 1, 0, 0, 0, 1)
18 (0, 0, 0, 1, 0, 0, 1, 0)
19 (0, 0, 0, 1, 0, 0, 1, 1)
20 (0, 0, 0, 1, 0, 1, 0, 0)
21 (0, 0, 0, 1, 0, 1, 0, 1)
22 (0, 0, 0, 1, 0, 1, 1, 0)
23 (0, 0, 0, 1, 0, 1, 1, 1)
24 (0, 0, 0, 1, 1, 0, 0, 0)
25 (0, 0, 0, 1, 1, 0, 0, 1)
26 (0, 0, 0, 1, 1, 0, 1, 0)
27 (0, 0, 0, 1, 1, 0, 1, 1)
28 (0, 0, 0, 1, 1, 1, 0, 0)
29 (0, 0, 0, 1, 1, 1, 0, 1)
30 (0, 0, 0, 1, 1, 1, 1, 0)
31 (0, 0, 0, 1, 1, 1, 1, 1)
32 (0, 0, 1, 0, 0, 0, 0, 0)
33 (0, 0, 1, 0, 0, 0, 0, 1)
34 (0, 0, 1, 0, 0, 0, 1, 0)
35 (0, 0, 1, 0, 0, 0, 1, 1)
36

Es decir, puede contener valores que van de 0 a 255 ($2^8$).

¿Cuántos bytes tendrá un `ndarray` de 10 elementos cuyo tipo de datos es un `np.int8`?

In [42]:
a = np.arange(10, dtype=np.int8)
print(a.nbytes)
print(sys.getsizeof(a))

10
58


In [43]:
a = np.repeat(1, 100000).astype(np.int8)
print(a.nbytes)
print(sys.getsizeof(a))

100000
100048


## Creación de numpy arrays

Podemos crear numpy arrays de muchas formas.

* Rangos numéricos

`np.arange`, `np.linspace`, `np.logspace`

* Datos homogéneos

`np.zeros`, `np.ones`

* Elementos diagonales

`np.diag`, `np.eye`

* Números aleatorios

`np.random.rand`, `np.random.randint`,...

* A partir de otras estructuras de datos ya creadas

`np.array`

* A partir de otros numpy arrays

`np.empty_like`

* A partir de ficheros

`np.loadtxt`, `np.genfromtxt`,...


* A partir de un escalar

`np.full`, `np.tile`,...

* A partir de valores aleatorios

`np.random.randint`, `np.random.randint`, `np.random.randn`,...

...

In [48]:
a = np.arange(10) # similar a range pero devuelve un ndarray en lugar de un objeto range
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [49]:
a = np.linspace(0, 1, 101)
print(a)

[ 0.    0.01  0.02  0.03  0.04  0.05  0.06  0.07  0.08  0.09  0.1   0.11
  0.12  0.13  0.14  0.15  0.16  0.17  0.18  0.19  0.2   0.21  0.22  0.23
  0.24  0.25  0.26  0.27  0.28  0.29  0.3   0.31  0.32  0.33  0.34  0.35
  0.36  0.37  0.38  0.39  0.4   0.41  0.42  0.43  0.44  0.45  0.46  0.47
  0.48  0.49  0.5   0.51  0.52  0.53  0.54  0.55  0.56  0.57  0.58  0.59
  0.6   0.61  0.62  0.63  0.64  0.65  0.66  0.67  0.68  0.69  0.7   0.71
  0.72  0.73  0.74  0.75  0.76  0.77  0.78  0.79  0.8   0.81  0.82  0.83
  0.84  0.85  0.86  0.87  0.88  0.89  0.9   0.91  0.92  0.93  0.94  0.95
  0.96  0.97  0.98  0.99  1.  ]


In [50]:
a_i = np.zeros((2, 3), dtype=np.int)
a_f = np.zeros((2, 3))
print(a_i)
print(a_f)

[[0 0 0]
 [0 0 0]]
[[ 0.  0.  0.]
 [ 0.  0.  0.]]


In [51]:
a = np.eye(3)
print(a)

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


In [52]:
a = np.array(
    (
        (1, 2, 3, 4, 5, 6),
        (10, 20, 30, 40, 50, 60)
    ), 
    dtype=np.float
)
print(a)

[[  1.   2.   3.   4.   5.   6.]
 [ 10.  20.  30.  40.  50.  60.]]


In [53]:
np.full((5, 5), -999)

array([[-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999]])

In [54]:
np.random.randint(0, 50, 15)

array([ 0, 21, 45, 28,  2, 20, 16,  8, 46,  3, 13, 32, 49,  7, 37])

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation">array creation</a></p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html#routines-array-creation">routines for array creation</a></p>
</div>

**Practicando**

Recordad que siempre podéis usar `help`, `?`, `np.lookfor`,..., para obtener más información.

In [55]:
help(np.sum)

Help on function sum in module numpy.core.fromnumeric:

sum(a, axis=None, dtype=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)
    Sum of array elements over a given axis.
    
    Parameters
    ----------
    a : array_like
        Elements to sum.
    axis : None or int or tuple of ints, optional
        Axis or axes along which a sum is performed.  The default,
        axis=None, will sum all of the elements of the input array.  If
        axis is negative it counts from the last to the first axis.
    
        .. versionadded:: 1.7.0
    
        If axis is a tuple of ints, a sum is performed on all of the axes
        specified in the tuple instead of a single axis or all the axes as
        before.
    dtype : dtype, optional
        The type of the returned array and of the accumulator in which the
        elements are summed.  The dtype of `a` is used by default unless `a`
        has an integer dtype of less precision than the default platform
        integer.  I

In [56]:
np.rad2deg?

In [57]:
np.lookfor("create array")

Search results for 'create array'
---------------------------------
numpy.array
    Create an array.
numpy.memmap
    Create a memory-map to an array stored in a *binary* file on disk.
numpy.diagflat
    Create a two-dimensional array with the flattened input as a diagonal.
numpy.fromiter
    Create a new 1-dimensional array from an iterable object.
numpy.partition
    Return a partitioned copy of an array.
numpy.ctypeslib.as_array
    Create a numpy array from a ctypes array or a ctypes POINTER.
numpy.ma.diagflat
    Create a two-dimensional array with the flattened input as a diagonal.
numpy.ma.make_mask
    Create a boolean mask from an array.
numpy.ctypeslib.as_ctypes
    Create and return a ctypes object from a numpy array.  Actually
numpy.ma.mrecords.fromarrays
    Creates a mrecarray from a (flat) list of masked arrays.
numpy.ma.mvoid.__new__
    Create a new masked array from scratch.
numpy.lib.format.open_memmap
    Open a .npy file as a memory-mapped array.
numpy.ma.MaskedArr

Ved un poco como funciona `np.repeat`, `np.empty_like`,... 

In [21]:
# Play area



## Metadatos y anatomía de un `ndarray`

En realidad, un `ndarray` es un bloque de memoria con información extra sobre como interpretar su contenido. La memoria dinámica (RAM) se puede considerar como un 'churro' lineal y es por ello que necesitamos esa información extra para saber como formar ese `ndarray`.

Esta parte va a ser un poco más esotérica para los no iniciados pero considero que es necesaria para poder entender mejor nuestra nueva estructura de datos y poder sacarle mejor partido.

In [110]:
a = np.random.randn(5000, 5000)

El número de dimensiones del `ndarray`

In [111]:
a.ndim

2

El número de elementos en cada una de las dimensiones

In [112]:
a.shape

(5000, 5000)

El número de elementos

In [113]:
a.size

25000000

El tipo de datos de los elementos

In [114]:
a.dtype

dtype('float64')

El número de bytes de cada elemento

In [115]:
a.itemsize

8

El número de bytes que ocupa el `ndarray` (es lo mismo que `size` por `itemsize`)

In [116]:
a.nbytes

200000000

El *buffer* que contiene los elementos del `ndarray`

In [117]:
a.data

<memory at 0x063B6288>

Pasos a dar en cada dimensión cuando nos movemos entre elementos

In [118]:
a.strides

(40000, 8)

![strides](../../images/03_02_strides.svg)
***(imagen extraída [de GitHub](https://github.com/btel/2016-erlangen-euroscipy-advanced-numpy)).***

Más cosas

In [119]:
a.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False

Pequeño ejercicio, ¿por qué tarda menos en sumar elementos en una dimensión que en otra si es un array regular?

In [120]:
%timeit a.sum(axis=0)
%timeit a.sum(axis=1)

22.7 ms ± 443 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
40.1 ms ± 346 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Pequeño ejercicio, ¿por qué ahora el resultado es diferente?

In [121]:
aT = a.T
%timeit aT.sum(axis=0)
%timeit aT.sum(axis=1)

41.2 ms ± 1.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
22.5 ms ± 597 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [122]:
aT.flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : True
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False

In [126]:
print(np.repeat((1,2,3), 3))
print()
a = np.repeat((1,2,3), 3).reshape(3, 3)
print(a)
print()
print(a.sum(axis=0))
print()
print(a.sum(axis=1))

[1 1 1 2 2 2 3 3 3]

[[1 1 1]
 [2 2 2]
 [3 3 3]]

[6 6 6]

[3 6 9]


## Indexación

In [124]:
a = 
a

array([1, 1, 1, 2, 2, 2, 3, 3, 3])