In [1]:
import sys

In [2]:
import numpy as np

# Numpy

Numpy proporciona un nuevo contenedor de datos a Python, los `ndarray`s, además de funcionalidad especializada para poder manipularlos de forma eficiente.

Hablar de manipulación de datos en Python es sinónimo de Numpy y prácticamente todo el ecosistema científico de Python está construido sobre Numpy. Digamos que Numpy es el ladrillo que ha permitido levantar edificios tan sólidos como Pandas, Matplotlib, Scipy, scikit-learn,...

**Índice**

* [¿Por qué un nuevo contenedor de datos?](#%C2%BFPor-qu%C3%A9-un-nuevo-contenedor-de-datos?)
* [Tipos de datos](#Tipos-de-datos)
* [Creación de `numpy` arrays](#Creaci%C3%B3n-de-numpy-arrays)
* [Operaciones disponibles más típicas](#Operaciones-disponibles-m%C3%A1s-t%C3%ADpicas)
* [Metadatos y anatomía de un `ndarray`](#Metadatos-y-anatom%C3%ADa-de-un-ndarray)
* [Indexación](#Indexaci%C3%B3n)
* [Manejo de valores especiales](#Manejo-de-valores-especiales)
* [Subarrays, vistas y copias](#Subarrays,-vistas-y-copias)
* [Operaciones entre numpy arrays](#Operaciones-entre-numpy-arrays)
* [Broadcasting](#Broadcasting)
* [Funciones matemáticas, funciones universales *ufuncs* y vectorización](#Funciones-matem%C3%A1ticas,-funciones-universales-ufuncs-y-vectorizaci%C3%B3n)

Playground

* [Estadística](#Estad%C3%ADstica)
* [Ordenando, buscando y contando](#Ordenando,-buscando-y-contando)
* [Polinomios](#Polinomios)
* [Álgebra lineal](#%C3%81lgebra-lineal)
* [Manipulación de `ndarray`s](#Manipulaci%C3%B3n-de-ndarrays)
* [Módulos de interés dentro de numpy](#M%C3%B3dulos-de-inter%C3%A9s-dentro-de-numpy)

## ¿Por qué un nuevo contenedor de datos?

En Python, disponemos, de partida, de diversos contenedores de datos, listas, tuplas, diccionarios, conjuntos,..., ¿por qué añadir uno más?.

¡Por conveniencia!, a pesar de la pérdida de flexibilidad. Es una solución de compromiso.

* Uso de memoria más eficiente: Por ejemplo, una lista puede contener distintos tipos de objetos lo que provoca que Python deba guardar información del tipo de cada elemento contenido en la lista. Por otra parte, un `ndarray` contiene tipos homogéneos, es decir, todos los elementos son del mismo tipo, por lo que la información del tipo solo debe guardarse una vez independientemente del número de elementos que tenga el `ndarray`.


![arrays_vs_listas](../images/03_01_array_vs_list.png)
***(imagen por Jake VanderPlas y extraída [de GitHub](https://github.com/jakevdp/PythonDataScienceHandbook)).***

* Más rápido: Por ejemplo, en una lista que consta de elementos con diferentes tipos Python debe realizar trabajos extra para saber si los tipos son compatibles con las operaciones que estamos realizando. Cuando trabajamos con un `ndarray` ya podemos saber eso de partida y podemos tener operaciones más eficientes (además de que mucha funcionalidad está programada en C, C++, Cython, Fortran).


* Operaciones vectorizadas


* Funcionalidad extra: Muchas operaciones de álgebra lineal, transformadas rápidas de Fourier, estadística básica, histogramas,...


* Acceso a los elementos más conveniente: Indexación más avanzada que con los tipos normales de Python


* ...

Uso de memoria

In [3]:
# AVISO: SYS.GETSYZEOF NO ES FIABLE

lista = list(range(5_000_000))
arr = np.array(lista, dtype=np.uint32)
print("5 millones de elementos")
print(sys.getsizeof(lista))
print(sys.getsizeof(arr))

print()

lista = list(range(100))
arr = np.array(lista, dtype=np.uint8)
print("100 elementos")
print(sys.getsizeof(lista))
print(sys.getsizeof(arr))

5 millones de elementos
45000112
20000096

100 elementos
1008
196


Velocidad de operaciones

In [4]:
a = list(range(1_000_000))
%timeit sum(a)
print(sum(a))

4.97 ms ± 225 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
499999500000


In [5]:
a = np.array(a)
%timeit np.sum(a)
print(np.sum(a))

594 µs ± 83 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
499999500000


Operaciones vectorizadas

In [6]:
# Suma de dos vectores elemento a elemento
a = [1, 1, 1]
b = [3, 4, 3]
print(a + b)
print('Fail')

[1, 1, 1, 3, 4, 3]
Fail


In [7]:
# Suma de dos vectores elemento a elemento
a = np.array([1, 1, 1])
b = np.array([3, 4, 3])
print(a + b)
print('\o/')

[4 5 4]
\o/


Funcionalidad más conveniente

In [8]:
# suma acumulada
a = list(range(100))
print([sum(a[:i+1]) for i in a])

a = np.array(a)
print(a.cumsum())

[0, 1, 3, 6, 10, 15, 21, 28, 36, 45, 55, 66, 78, 91, 105, 120, 136, 153, 171, 190, 210, 231, 253, 276, 300, 325, 351, 378, 406, 435, 465, 496, 528, 561, 595, 630, 666, 703, 741, 780, 820, 861, 903, 946, 990, 1035, 1081, 1128, 1176, 1225, 1275, 1326, 1378, 1431, 1485, 1540, 1596, 1653, 1711, 1770, 1830, 1891, 1953, 2016, 2080, 2145, 2211, 2278, 2346, 2415, 2485, 2556, 2628, 2701, 2775, 2850, 2926, 3003, 3081, 3160, 3240, 3321, 3403, 3486, 3570, 3655, 3741, 3828, 3916, 4005, 4095, 4186, 4278, 4371, 4465, 4560, 4656, 4753, 4851, 4950]
[   0    1    3    6   10   15   21   28   36   45   55   66   78   91
  105  120  136  153  171  190  210  231  253  276  300  325  351  378
  406  435  465  496  528  561  595  630  666  703  741  780  820  861
  903  946  990 1035 1081 1128 1176 1225 1275 1326 1378 1431 1485 1540
 1596 1653 1711 1770 1830 1891 1953 2016 2080 2145 2211 2278 2346 2415
 2485 2556 2628 2701 2775 2850 2926 3003 3081 3160 3240 3321 3403 3486
 3570 3655 3741 3828 3916 4005 4095 

Acceso a elementos más conveniente

In [9]:
a = [[11, 12, 13],
     [21, 22, 23],
     [31, 32, 33]]
print('acceso a la primera fila: ', a[0])
print('acceso a la primera columna: ', a[:][0], ' Fail!!!')

acceso a la primera fila:  [11, 12, 13]
acceso a la primera columna:  [11, 12, 13]  Fail!!!


In [10]:
a = np.array(a)
print('acceso a la primera fila: ', a[0])
print('acceso a la primera columna: ', a[:,0], ' \o/')

acceso a la primera fila:  [11 12 13]
acceso a la primera columna:  [11 21 31]  \o/


...

Recapitulando un poco.

***Los `ndarray`s son contenedores multidimensionales, homogéneos con elementos de tamaño fijo, de dimensión predefinida.***

## Tipos de datos

Como los arrays deben ser homogéneos tenemos tipos de datos. Algunos de ellos se pueden ver en la siguiente tabla:

| Data type	    | Descripción |
|---------------|-------------|
| ``bool_``     | Booleano (True o False) almacenado como un Byte |
| ``int_``      | El tipo entero por defecto (igual que el `long` de C; normalmente será `int64` o `int32`)| 
| ``intc``      | Idéntico al ``int`` de C (normalmente `int32` o `int64`)| 
| ``intp``      | Entero usado para indexación (igual que `ssize_t` en C; normalmente `int32` o `int64`)| 
| ``int8``      | Byte (de -128 a 127)| 
| ``int16``     | Entero (de -32768 a 32767)|
| ``int32``     | Entero (de -2147483648 a 2147483647)|
| ``int64``     | Entero (de -9223372036854775808 a 9223372036854775807)| 
| ``uint8``     | Entero sin signo (de 0 a 255)| 
| ``uint16``    | Entero sin signo (de 0 a 65535)| 
| ``uint32``    | Entero sin signo (de 0 a 4294967295)| 
| ``uint64``    | Entero sin signo (de 0 a 18446744073709551615)| 
| ``float_``    | Atajo para ``float64``.| 
| ``float16``   | Half precision float: un bit para el signo, 5 bits para el exponente, 10 bits para la mantissa| 
| ``float32``   | Single precision float: un bit para el signo, 8 bits para el exponente, 23 bits para la mantissa|
| ``float64``   | Double precision float: un bit para el signo, 11 bits para el exponente, 52 bits para la mantissa|
| ``complex_``  | Atajo para `complex128`.| 
| ``complex64`` | Número complejo, represantedo por dos *floats* de 32-bits| 
| ``complex128``| Número complejo, represantedo por dos *floats* de 64-bits| 

Es posible tener una especificación de tipos más detallada, pudiendo especificar números con *big endian* o *little endian*. No vamos a ver esto en este momento.

El tipo por defecto que usa `numpy` al crear un *ndarray* es `np.float_`, siempre que no específiquemos explícitamente el tipo a usar.

## Creación de numpy arrays

Podemos crear numpy arrays de muchas formas.

* Rangos numéricos

`np.arange`, `np.linspace`, `np.logspace`

* Datos homogéneos

`np.zeros`, `np.ones`

* Elementos diagonales

`np.diag`, `np.eye`

* A partir de otras estructuras de datos ya creadas

`np.array`

* A partir de otros numpy arrays

`np.empty_like`

* A partir de ficheros

`np.loadtxt`, `np.genfromtxt`,...


* A partir de un escalar

`np.full`, `np.tile`,...

* A partir de valores aleatorios

`np.random.randint`, `np.random.randint`, `np.random.randn`,...

...

In [11]:
a = np.arange(10) # similar a range pero devuelve un ndarray en lugar de un objeto range
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [12]:
a = np.linspace(0, 1, 101)
print(a)

[0.   0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1  0.11 0.12 0.13
 0.14 0.15 0.16 0.17 0.18 0.19 0.2  0.21 0.22 0.23 0.24 0.25 0.26 0.27
 0.28 0.29 0.3  0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4  0.41
 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.5  0.51 0.52 0.53 0.54 0.55
 0.56 0.57 0.58 0.59 0.6  0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69
 0.7  0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.8  0.81 0.82 0.83
 0.84 0.85 0.86 0.87 0.88 0.89 0.9  0.91 0.92 0.93 0.94 0.95 0.96 0.97
 0.98 0.99 1.  ]


In [13]:
a_i = np.zeros((2, 3), dtype=np.int)
a_f = np.zeros((2, 3))
print(a_i)
print(a_f)

[[0 0 0]
 [0 0 0]]
[[0. 0. 0.]
 [0. 0. 0.]]


In [14]:
a = np.eye(3)
print(a)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [15]:
a = np.array(
    (
        (1, 2, 3, 4, 5, 6),
        (10, 20, 30, 40, 50, 60)
    ), 
    dtype=np.float
)
print(a)

[[ 1.  2.  3.  4.  5.  6.]
 [10. 20. 30. 40. 50. 60.]]


In [16]:
np.full((5, 5), -999)

array([[-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999],
       [-999, -999, -999, -999, -999]])

In [17]:
np.random.randint(0, 50, 15)

array([28, 11, 46, 40,  4, 35, 24, 39, 27, 35, 38, 28,  8, 21, 34])

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation">array creation</a></p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html#routines-array-creation">routines for array creation</a></p>
</div>

**Practicando**

Recordad que siempre podéis usar `help`, `?`, `np.lookfor`,..., para obtener más información.

In [18]:
help(np.sum)

Help on function sum in module numpy.core.fromnumeric:

sum(a, axis=None, dtype=None, out=None, keepdims=<no value>, initial=<no value>)
    Sum of array elements over a given axis.
    
    Parameters
    ----------
    a : array_like
        Elements to sum.
    axis : None or int or tuple of ints, optional
        Axis or axes along which a sum is performed.  The default,
        axis=None, will sum all of the elements of the input array.  If
        axis is negative it counts from the last to the first axis.
    
        .. versionadded:: 1.7.0
    
        If axis is a tuple of ints, a sum is performed on all of the axes
        specified in the tuple instead of a single axis or all the axes as
        before.
    dtype : dtype, optional
        The type of the returned array and of the accumulator in which the
        elements are summed.  The dtype of `a` is used by default unless `a`
        has an integer dtype of less precision than the default platform
        integer.  In t

In [19]:
np.rad2deg?

In [20]:
np.lookfor("create array")

Search results for 'create array'
---------------------------------
numpy.array
    Create an array.
numpy.memmap
    Create a memory-map to an array stored in a *binary* file on disk.
numpy.diagflat
    Create a two-dimensional array with the flattened input as a diagonal.
numpy.fromiter
    Create a new 1-dimensional array from an iterable object.
numpy.partition
    Return a partitioned copy of an array.
numpy.ctypeslib.as_array
    Create a numpy array from a ctypes array or POINTER.
numpy.ma.diagflat
    Create a two-dimensional array with the flattened input as a diagonal.
numpy.ma.make_mask
    Create a boolean mask from an array.
numpy.ctypeslib.as_ctypes
    Create and return a ctypes object from a numpy array.  Actually
numpy.ma.mrecords.fromarrays
    Creates a mrecarray from a (flat) list of masked arrays.
numpy.ma.mvoid.__new__
    Create a new masked array from scratch.
numpy.lib.format.open_memmap
    Open a .npy file as a memory-mapped array.
numpy.ma.MaskedArray.__new_

Ved un poco como funciona `np.repeat`, `np.empty_like`,... 

In [21]:
# Play area



In [22]:
# %load ../solutions/03_01_np_array_creacion.py
a = np.repeat(1, 10)
print(a)
b = np.empty_like(a)
print(b)

[1 1 1 1 1 1 1 1 1 1]
[       53821360 140455188925064 140455188925128 140455188925192
 140455188925256 140455188925320 140455188925384 140455188925448
 140455188925512 140455188925576]


## Operaciones disponibles más típicas que podemos hacer con un numpy array

In [23]:
a = np.random.rand(5, 2)
print(a)

[[0.96341925 0.99278219]
 [0.62647888 0.43324201]
 [0.67019048 0.4210576 ]
 [0.36319482 0.6932813 ]
 [0.63107005 0.87378596]]


In [24]:
a.sum()

6.668502541295282

In [25]:
a.sum(axis=0)

array([3.25435349, 3.41414905])

In [26]:
a.sum(axis=1)

array([1.95620144, 1.05972089, 1.09124808, 1.05647612, 1.50485601])

In [27]:
a.ravel()

array([0.96341925, 0.99278219, 0.62647888, 0.43324201, 0.67019048,
       0.4210576 , 0.36319482, 0.6932813 , 0.63107005, 0.87378596])

In [28]:
a.reshape(2, 5)

array([[0.96341925, 0.99278219, 0.62647888, 0.43324201, 0.67019048],
       [0.4210576 , 0.36319482, 0.6932813 , 0.63107005, 0.87378596]])

In [29]:
a.T

array([[0.96341925, 0.62647888, 0.67019048, 0.36319482, 0.63107005],
       [0.99278219, 0.43324201, 0.4210576 , 0.6932813 , 0.87378596]])

In [30]:
a.transpose()

array([[0.96341925, 0.62647888, 0.67019048, 0.36319482, 0.63107005],
       [0.99278219, 0.43324201, 0.4210576 , 0.6932813 , 0.87378596]])

In [31]:
a.mean()

0.6668502541295281

In [32]:
a.mean(axis=1)

array([0.97810072, 0.52986044, 0.54562404, 0.52823806, 0.75242801])

In [33]:
a.cumsum(axis=1)

array([[0.96341925, 1.95620144],
       [0.62647888, 1.05972089],
       [0.67019048, 1.09124808],
       [0.36319482, 1.05647612],
       [0.63107005, 1.50485601]])

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/quickstart.html">Quick start tutorial</a></p>
</div>

**Practicando**

Mirad más métodos de un `ndarray` y toquetead. Si no entendéis algo, preguntad:

In [34]:
dir(a)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_e

In [35]:
# Play area



In [36]:
# %load ../solutions/03_02_np_operaciones_tipicas.py
print(a.shape)
print(a.size)
print(a.var())
print(a.std(axis=0))
print(a)
a.sort()
print(a)

(5, 2)
10
0.04478204711015474
[0.19068523 0.22954857]
[[0.96341925 0.99278219]
 [0.62647888 0.43324201]
 [0.67019048 0.4210576 ]
 [0.36319482 0.6932813 ]
 [0.63107005 0.87378596]]
[[0.96341925 0.99278219]
 [0.43324201 0.62647888]
 [0.4210576  0.67019048]
 [0.36319482 0.6932813 ]
 [0.63107005 0.87378596]]


## Metadatos y anatomía de un `ndarray`

En realidad, un `ndarray` es un bloque de memoria con información extra sobre como interpretar su contenido. La memoria dinámica (RAM) se puede considerar como un 'churro' lineal y es por ello que necesitamos esa información extra para saber como formar ese `ndarray`, sobre todo la información de `shape` y `strides`.

Esta parte va a ser un poco más esotérica para los no iniciados pero considero que es necesaria para poder entender mejor nuestra nueva estructura de datos y poder sacarle mejor partido.

In [37]:
a = np.random.randn(5000, 5000)

El número de dimensiones del `ndarray`

In [38]:
a.ndim

2

El número de elementos en cada una de las dimensiones

In [39]:
a.shape

(5000, 5000)

El número de elementos

In [40]:
a.size

25000000

El tipo de datos de los elementos

In [41]:
a.dtype

dtype('float64')

El número de bytes de cada elemento

In [42]:
a.itemsize

8

El número de bytes que ocupa el `ndarray` (es lo mismo que `size` por `itemsize`)

In [43]:
a.nbytes

200000000

El *buffer* que contiene los elementos del `ndarray`

In [44]:
a.data

<memory at 0x7fbe19120990>

Pasos a dar en cada dimensión cuando nos movemos entre elementos

In [45]:
a.strides

(40000, 8)

![strides](../images/03_02_strides.svg)
***(imagen extraída [de GitHub](https://github.com/btel/2016-erlangen-euroscipy-advanced-numpy)).***

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html#internal-memory-layout-of-an-ndarray">Internal memory layout of an ndarray</a></p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/internals.html#multidimensional-array-indexing-order-issues">multidimensional array indexing order issues</a></p>
</div>

Practicando

Crea un numpy array de dos dimensiones y obtén información del mismo. Puedes obtener información extra usando el método `flags`:

In [46]:
# Play area



In [47]:
# %load ../solutions/03_03_np_array_metadatos.py
a = np.random.randn(10, 2)

print("forma: ", a.shape)
print("# dimensiones: ", a.ndim)
print("# elementos: ", a.size)
print("El número de elementos es igual a multiplicar "
      "todos los elementos de la forma (Shape): ",
      np.multiply(*a.shape) == a.size)
print("Tamaño de cada elemento en bytes: ", a.itemsize)
print("# bytes en el array: ", a.nbytes)
print("El número de bytes del array es igual al número de "
      "elementos por el tamaño de cada elemento: ",
      a.itemsize * a.size == a.nbytes)
print("FLAGS: ", a.flags, sep="\n")

forma:  (10, 2)
# dimensiones:  2
# elementos:  20
El número de elementos es igual a multiplicar todos los elementos de la forma (Shape):  True
Tamaño de cada elemento en bytes:  8
# bytes en el array:  160
El número de bytes del array es igual al número de elementos por el tamaño de cada elemento:  True
FLAGS: 
  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False


## Indexación

Si ya has trabajado con indexación en estructuras de Python, como listas, tuplas o strings, la indexación en Numpy te resultará muy familiar. 

Por ejemplo, por hacer las cosas sencillas, vamos a crear un `ndarray` de 1D:

In [48]:
a = np.arange(10, dtype=np.uint8)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [49]:
print(a[:]) # para acceder a todos los elementos
print(a[:-1]) # todos los elementos menos el último
print(a[1:]) # todos los elementos menos el primero
print(a[::2]) # el primer, el tercer, el quinto,..., elemento
print(a[3]) # el cuarto elemento
print(a[-1:-5:-1]) # ¿?

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7 8]
[1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]
3
[9 8 7 6]


Para *ndarrays* de una dimensión es exactamente igual que si usásemos listas o tuplas de Python:

* Primer elemento tiene índice 0
* Los índices negativos empiezan a contar desde el final
* slices/rebanadas con `[start:stop:step]`

Con un `ndarray` de más dimensiones las cosas ya cambian con respecto a Python puro:

In [50]:
a = np.random.randn(10, 2)
print(a)

[[-0.39667905 -0.66618202]
 [-0.48759682 -0.21514855]
 [-0.10465581  1.77551309]
 [-0.33643627 -1.71932556]
 [ 0.6217074  -3.00363504]
 [ 1.34604435  0.56160493]
 [ 0.02499873  1.44862652]
 [ 0.43746961  0.45703867]
 [ 0.03837419 -0.67770725]
 [-0.0827314  -0.20086025]]


In [51]:
print(a[1]) # ¿Qué nos dará esto?
print(a[1, 1]) # Si queremos acceder a un elemento específico hay que dar su posición completa en el ndarray
print(a[::3, 1])

[-0.48759682 -0.21514855]
-0.21514855011073525
[-0.66618202 -1.71932556  1.44862652 -0.20086025]


Vamos a considerar el siguiente numpy array y vamos a trabajar un poco el *slicing*

In [52]:
a = np.arange(40).reshape(5, 8)
print(a)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]]


Si tenemos dimensiones mayores a 1 es parecido a las listas pero los índices se separan por comas para las nuevas dimensiones.
<img src="../images/03_03_arraygraphics_0.png" width=400px />
(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [53]:
a[2, -3]

21

Para obtener más de un elemento hacemos *slicing* para cada eje:
<img src="../images/03_04_arraygraphics_1.png" width=400px />
(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [54]:
a[:3, :5]

array([[ 0,  1,  2,  3,  4],
       [ 8,  9, 10, 11, 12],
       [16, 17, 18, 19, 20]])

Jugamos de nuevo!!!

¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_06_arraygraphics_2_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [55]:
# ¿?


¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_08_arraygraphics_3_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [56]:
# ¿?


¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_10_arraygraphics_4_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [57]:
# ¿?


¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_12_arraygraphics_5_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [58]:
# ¿?


Soluciones a lo anterior:

In [59]:
# %load ../solutions/03_04_array_indexing.py
from IPython.display import HTML

HTML("""
<img src="../images/03_05_arraygraphics_2.png" width=200px />
<img src="../images/03_07_arraygraphics_3.png" width=200px />
<img src="../images/03_09_arraygraphics_4.png" width=200px />
<img src="../images/03_11_arraygraphics_5.png" width=200px />

(imágenes extraídas de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))
""")

**Fancy indexing**

Con *fancy indexing* podemos hacer cosas tan variopintas como:

<img src="../images/03_13_arraygraphics_6.png" width=300px />
<img src="../images/03_14_arraygraphics_7.png" width=300px />

(imágenes extraídas de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

Es decir, podemos indexar usando `ndarray`s de booleanos ó usando listas de índices para extraer elementos concretos de una sola vez.

**WARNING: En el momento que usamos *fancy indexing* nos devuelve un nuevo *ndarray* que no tiene porque conservar la estructura original.**

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html#arrays-indexing">array indexing</a></p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html#indexing-arrays">indexing arrays</a></p>
</div>

## Manejo de valores especiales

`numpy` provee de varios valores especiales: `np.nan`, `np.Inf`, `np.Infinity`, `np.inf`, `np.infty`,...

In [60]:
a = 1 / np.arange(10)
print(a)

[       inf 1.         0.5        0.33333333 0.25       0.2
 0.16666667 0.14285714 0.125      0.11111111]


In [61]:
a[0] == np.inf

True

In [62]:
a.max() # Esto no es lo que queremos

inf

In [63]:
a.mean() # Esto no es lo que queremos

inf

In [64]:
a[np.isfinite(a)].max()

1.0

In [65]:
a[-1] = np.nan
print(a)

[       inf 1.         0.5        0.33333333 0.25       0.2
 0.16666667 0.14285714 0.125             nan]


In [66]:
a.mean()

nan

In [67]:
np.isnan(a)

array([False, False, False, False, False, False, False, False, False,
        True])

In [68]:
np.isfinite(a)

array([False,  True,  True,  True,  True,  True,  True,  True,  True,
       False])

In [69]:
np.isinf(a) # podéis mirar también np.isneginf, np.isposinf

array([ True, False, False, False, False, False, False, False, False,
       False])

`numpy` usa el estándar IEEE de números flotantes para aritmética (IEEE 754). Esto significa que *Not a
Number* no es equivalente a *infinity*. También, *positive infinity* no es equivalente a *negative infinity*. Pero *infinity* es equivalente a *positive infinity*.

In [70]:
1 < np.inf

True

In [71]:
1 < -np.inf

False

In [72]:
1 > -np.inf

True

In [73]:
1 == np.inf

False

In [74]:
1 < np.nan

False

In [75]:
1 > np.nan

False

In [76]:
1 == np.nan

False

## Subarrays, vistas y copias

**¡IMPORTANTE!**

Vistas y copias: `numpy`, por defecto, siempre devuelve vistas para evitar incrementos innecesarios de memoria. Este comportamiento difiere del de Python puro donde una rebanada (*slicing*) de una lista devuelve una copia. Si queremos una copia de un `ndarray` debemos obtenerla de forma explícita:

In [77]:
a = np.arange(10)
b = a[2:5]
print(a)
print(b)

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]


In [78]:
b[0] = 222
print(a)
print(b)

[  0   1 222   3   4   5   6   7   8   9]
[222   3   4]


Este comportamiento por defecto es realmente muy útil, significa que, trabajando con grandes conjuntos de datos, podemos acceder y procesar piezas de estos conjuntos de datos sin necesidad de copiar el buffer de datos original.

A veces, es necesario crear una copia. Esto se puede realizar fácilmente usando el método `copy` de los *ndarrays*. El ejemplo anterior usando una copia en lugar de una vista:

In [79]:
a = np.arange(10)
b = a[2:5].copy()
print(a)
print(b)
b[0] = 222
print(a)
print(b)

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]
[0 1 2 3 4 5 6 7 8 9]
[222   3   4]


## Operaciones entre numpy arrays

Como hemos visto, se pueden hacer operaciones sobre el propio array pero, como es de esperar, también podemos realizar operaciones entre varios numpy arrays:

In [80]:
a = np.repeat(3, 10)
b = np.arange(10)
c = np.linspace(0, 10, 10)

print(a)
print(b)
print(c)
print()
print(a + b * c)

[3 3 3 3 3 3 3 3 3 3]
[0 1 2 3 4 5 6 7 8 9]
[ 0.          1.11111111  2.22222222  3.33333333  4.44444444  5.55555556
  6.66666667  7.77777778  8.88888889 10.        ]

[ 3.          4.11111111  7.44444444 13.         20.77777778 30.77777778
 43.         57.44444444 74.11111111 93.        ]


## Broadcasting

Es posible realizar operaciones en *ndarrays* de diferentes tamaños. En algunos casos `numpy` puede transformar estos *ndarrays* automáticamente de forma que todos tienen la misma forma. Esta conversión automática se llama **broadcasting**.

Normas del Broadcasting

Para determinar la interacción entre dos `ndarray`s en Numpy se sigue un conjunto de reglas estrictas:

* Regla 1: Si dos `ndarray`s difieren en su número de dimensiones la forma de aquel con menos dimensiones se rellena con 1's a su derecha.
- Regla 2: Si la forma de dos `ndarray`s no es la misma en ninguna de sus dimensiones, el `ndarry` con forma igual a 1 en esa dimensión se 'alarga' para tener simulares dimensiones que los del otros `ndarray`.
- Regla 3: Si en cualquier dimensión el tamaño no es igual y ninguno de ellos es igual a 1 entonces obtendremos un error.

Resumiendo, cuando se opera en dos *ndarrays*, `numpy` compara sus formas (*shapes*) elemento a elemento. Empieza por las dimensiones más a la izquierda y trabaja hacia las siguientes dimensiones. Dos  dimensiones son compatibles cuando

    ambas son iguales o
    una de ellas es 1

Si estas condiciones no se cumplen se lanzará una excepción `ValueError: frames are not aligned` indicando que los *ndarrays* tienen formas incompatibles. El tamaño del *ndarray* resultante es el tamaño máximo a lo largo de cada dimensión de los *ndarrays* de partida.

De forma más gráfica:

![numpy broadcasting in 2D](../images/03_15_numpy_broadcasting.png)
(imagen extraída de [aquí](https://github.com/btel/2016-erlangen-euroscipy-advanced-numpy))

```
a:      4 x 3     a:      4 x 3      a:      4 x 1
b:      4 x 3     b:          3      b:          3
result: 4 x 3     result: 4 x 3      result: 4 x 3
```

Intentemos reproducir los esquemas de la imagen anterior.

In [102]:
a = np.repeat((0, 10, 20, 30), 3).reshape(4, 3)
b = np.repeat((0, 1, 2), 4).reshape(3,4).T
print(a)
print(b)
print(a + b)

[[ 0  0  0]
 [10 10 10]
 [20 20 20]
 [30 30 30]]
[[0 1 2]
 [0 1 2]
 [0 1 2]
 [0 1 2]]
[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]


In [82]:
a = np.repeat((0, 10, 20, 30), 3).reshape(4, 3)
b = np.array((0, 1, 2))
print(a)
print(b)
print(a + b)

[[ 0  0  0]
 [10 10 10]
 [20 20 20]
 [30 30 30]]
[0 1 2]
[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]


In [83]:
a = np.array((0, 10, 20, 30)).reshape(4,1)
b = np.array((0, 1, 2))
print(a)
print(b)
print(a + b)

[[ 0]
 [10]
 [20]
 [30]]
[0 1 2]
[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]


<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html">Basic broadcasting</a></p>
    <p><a href="http://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc">Broadcasting more in depth</a></p>
</div>

## Funciones matemáticas, funciones universales *ufuncs* y vectorización

¿Qué es eso de *ufunc*? 

De la [documentación oficial de Numpy](http://docs.scipy.org/doc/numpy/reference/ufuncs.html):
    
> A universal function (or ufunc for short) is a function that operates on ndarrays in an element-by-element fashion, supporting array broadcasting, type casting, and several other standard features. That is, a ufunc is a “**vectorized**” wrapper for a function that takes a **fixed number of scalar inputs** and produces a **fixed number of scalar outputs**.

Una *ufunc* es una *Universal function* o función universal que actúa sobre todos los elementos de un  `ndarray`, es decir aplica la funcionalidad sobre cada uno de los elementos del `ndarray`. Esto se conoce como vectorización.

Por ejemplo, veamos la operación de elevar al cuadrado una lista en python puro o en `numpy`:

In [84]:
# En Python puro
a_list = list(range(10_000))

%timeit [i ** 2 for i in a_list]

1.99 ms ± 179 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [85]:
# En numpy
an_arr = np.arange(10_000)

%timeit np.power(an_arr, 2)

17.8 µs ± 725 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [86]:
a = np.arange(10)

np.power(a, 2)

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

La función anterior eleva al cuadrado cada uno de los elementos del `ndarray` anterior.

Dentro de `numpy` hay muchísimas *ufuncs* y `scipy` (no lo vamos a ver) dispone de muchas más *ufuns* mucho más especializadas.

En `numpy` tenemos, por ejemplo:

* Funciones trigonométricas: `sin`, `cos`, `tan`, `arcsin`, `arccos`, `arctan`, `hypot`, `arctan2`, `degrees`, `radians`, `unwrap`, `deg2rad`, `rad2deg`

In [87]:
# juguemos un poco con ellas


* Funciones hiperbólicas: `sinh`, `cosh`, `tanh`, `arcsinh`, `arccosh`, `arctanh`

In [88]:
# juguemos un poco con ellas


* Redondeo: `around`, `round_`, `rint`, `fix`, `floor`, `ceil`, `trunc`

In [89]:
# juguemos un poco con ellas


* Sumas, productos, diferencias: `prod`, `sum`, `nansum`, `cumprod`, `cumsum`, `diff`, `ediff1d`, `gradient`, `cross`, `trapz`

In [90]:
# juguemos un poco con ellas


* Exponentes y logaritmos: `exp`, `expm1`, `exp2`, `log`, `log10`, `log2`, `log1p`, `logaddexp`, `logaddexp2`

In [91]:
# juguemos un poco con ellas


* Otras funciones especiales: `i0`, `sinc`

In [92]:
# juguemos un poco con ellas


* Trabajo con decimales: `signbit`, `copysign`, `frexp`, `ldexp`

In [93]:
# juguemos un poco con ellas


* Operaciones aritméticas: `add`, `reciprocal`, `negative`, `multiply`, `divide`, `power`, `subtract`, `true_divide`, `floor_divide`, `fmod`, `mod`, `modf`, `remainder`

In [94]:
# juguemos un poco con ellas


* Manejo de números complejos: `angle`, `real`, `imag`, `conj`

In [95]:
# juguemos un poco con ellas


* Miscelanea: `convolve`, `clip`, `sqrt`, `square`, `absolute`, `fabs`, `sign`, `maximum`, `minimum`, `fmax`, `fmin`, `nan_to_num`, `real_if_close`, `interp`


...

In [96]:
# juguemos un poco con ellas


<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="http://docs.scipy.org/doc/numpy/reference/ufuncs.html">Ufuncs</a></p>
</div>

## Estadística

* Orden: `amin`, `amax`, `nanmin`, `nanmax`, `ptp`, `percentile`, `nanpercentile`


* Medias y varianzas: `median`, `average`, `mean`, `std`, `var`, `nanmedian`, `nanmean`, `nanstd`, `nanvar`


* Correlacionando: `corrcoef`, `correlate`, `cov`


* Histogramas: `histogram`, `histogram2d`, `histogramdd`, `bincount`, `digitize`

...

In [97]:
# juguemos un poco con ellas


## Ordenando, buscando y contando

* Ordenando: `sort`, `lexsort`, `argsort`, `ndarray.sort`, `msort`, `sort_complex`, `partition`, `argpartition`


* Buscando: `argmax`, `nanargmax`, `argmin`, `nanargmin`, `argwhere`, `nonzero`, `flatnonzero`, `where`, `searchsorted`, `extract`


* Contando: `count_nonzero`

...

In [98]:
# juguemos un poco con ellas


## Polinomios

* Series de potencias: `numpy.polynomial.polynomial`


* Clase Polynomial: `np.polynomial.Polynomial`


* Básicos: `polyval`, `polyval2d`, `polyval3d`, `polygrid2d`, `polygrid3d`, `polyroots`, `polyfromroots`


* Ajuste: `polyfit`, `polyvander`, `polyvander2d`, `polyvander3d`


* Cálculo: `polyder`, `polyint`


* Álgebra: `polyadd`, `polysub`, `polymul`, `polymulx`, `polydiv`, `polypow`


* Miscelánea: `polycompanion`, `polydomain`, `polyzero`, `polyone`, `polyx`, `polytrim`, `polyline`


* Otras funciones polinómicas: `Chebyshev`, `Legendre`, `Laguerre`, `Hermite`

...

In [99]:
# juguemos un poco con ellas


## Álgebra lineal

Lo siguiente que se encuentra dentro de `numpy.linalg` vendrá precedido por `LA`.

* Productos para vectores y matrices: `dot`, `vdot`, `inner`, `outer`, `matmul`, `tensordot`, `einsum`, `LA.matrix_power`, `kron`


* Descomposiciones: `LA.cholesky`, `LA.qr`, `LA.svd`


* Eigenvalores: `LA.eig`, `LA.eigh`, `LA.eigvals`, `LA.eigvalsh`


* Normas y otros números: `LA.norm`, `LA.cond`, `LA.det`, `LA.matrix_rank`, `LA.slogdet`, `trace`


* Resolución de ecuaciones e inversión de matrices: `LA.solve`, `LA.tensorsolve`, `LA.lstsq`, `LA.inv`, `LA.pinv`, `LA.tensorinv`


Dentro de `scipy` tenemos más cosas relacionadas.

In [100]:
# juguemos un poco con ellas


## Manipulación de `ndarrays`

`tile`, `hstack`, `vstack`, `dstack`, `hsplit`, `vsplit`, `dsplit`, `repeat`, `reshape`, `ravel`, `resize`,...

In [101]:
# juguemos un poco con ellas


## Módulos de interés dentro de `numpy`

Dentro de `numpy` podemos encontrar módulos para:

* Usar números aleatorios: `np.random`


* Usar FFT: `np.fft`


* Usar *masked arrays*: `np.ma`


* Usar polinomios: `np.polynomial`


* Usar álgebra lineal: `np.linalg`


* Usar matrices: `np.matlib`


* ...

Toda esta funcionalidad se puede ampliar y mejorar usando `scipy`.