# Numpy para pandas 

#### Referencia: Python Data Science Handbook, de Jake VanderPlas.

Existen técnicas para cargar, almacenar y manipular de forma efectiva los datos en memoria en Python. El tema es muy amplio: los conjuntos de datos pueden provenir de una amplia gama de fuentes y una amplia gama de formatos, incluyendo colecciones de documentos, colecciones de imágenes,  colecciones de medidas numéricas o casi cualquier otra cosa. A pesar de esta aparente heterogeneidad, nos ayudará a pensar los datos fundamentalmente como arrays de números.

Por ejemplo, las imágenes, en particular las imágenes digitales, pueden considerarse como  matrices bidimensionales de números que representan el brillo de los píxeles en toda el área. El texto se puede convertir de varias maneras en representaciones numéricas, tal vez dígitos binarios que representan la frecuencia de ciertas palabras o pares de palabras. No importa cuáles sean los datos, el primer paso para hacerlos  analizables es  transformarlos en matrices de números. 

Por esta razón, el almacenamiento y manipulación eficientes de matrices (arrays) numéricas es absolutamente fundamental para el proceso de análisis dedatos. 

NumPy proporciona una interfaz eficiente para almacenar y operar en búferes con gran cantidad de  datos . De alguna manera, las matrices de NumPy son como el tipo `list`   de Python, pero las matrices NumPy proporcionan operaciones de almacenamiento y datos mucho más eficientes a medida que las matrices crecen en tamaño.  Las matrices de  NumPy forma el núcleo de casi todo el ecosistema de  herramientas de ciencias de datos en Python, por lo que el tiempo dedicado a aprender a utilizar NumPy efectivamente será valioso no importa qué aspecto de la ciencia de los datos nos interesa.

In [1]:
import numpy
numpy.__version__

'1.11.3'

In [2]:
import numpy as np

La implementación estándar de Python está escrita en C. Esto significa que cada objeto Python es simplemente una estructura de C que contiene no sólo su valor, sino también otra información. Por ejemplo, cuando definimos un entero en Python, como `x = 10000`, `x`  es puntero a una estructura C , que contiene varios valores.

```
struct _longobject {
    long ob_refcnt;
    PyTypeObject *ob_type;
    size_t ob_size;
    long ob_digit[1];
};
```

Un entero en Python 3, actualmente contiene cuatro parte:

* `ob_refcnt`, un conjunto de referencias que ayuda a Python a gestionar   la asignación de memoria y la desasignación.
* `ob_type`, codifica el tipo de variable.
* `ob_size`, especifica el tamaño de los elementos.
* `ob_digit`, contiene el valor entero actual que representa la variable de Python.

Esto significa que hay una sobrecarga en el almacenamiento de un entero en Python en comparación con un entero en un lenguaje compilado como C, como se ilustra en la siguiente figura:

![](cint_vs_pyint.png)

Aquí `PyObject_HEAD` es la parte de la estructura que contiene las referencias,  tipos y otras piezas mencionadas anteriormente.

Un entero en C es esencialmente una etiqueta para una posición en la memoria cuyos bytes codifican un valor entero. Un entero Python es un puntero a una posición en la memoria que contiene toda la información del objeto Python, incluyendo los bytes que contienen el valor entero. Esta información adicional en la estructura entera de Python es lo que permite que Python sea codificado de forma tan libre y dinámica. Toda esta información adicional en los tipos de Python tiene un costo, sin embargo, que se hace especialmente evidente en las estructuras que combinan muchos de estos objetos.

Cuando usamos una estructura de datos  que contiene muchos objetos Python como una  lista, la tipificación dinámica de Python, incluye  crear listas heterogéneas inclusive.

Pero esta flexibilidad tiene un costo: para  permitir estos tipos de datos , cada elemento de la lista debe contener su propia información de tipo, conjunto de referencias y otras informaciones, es decir, cada elemento es un objeto Python completo. En el caso especial de que todas las variables son del mismo tipo, gran parte de esta información es redundante, por lo que  puede ser mucho más eficiente almacenar datos en una matriz de tipo fijo. La diferencia entre una lista de tipo dinámico y una matriz de tipo fijo (NumPy) se ilustra en la siguiente figura:

![](array_vs_list.png)

En el nivel de implementación, la matriz contiene esencialmente un único puntero a un bloque contiguo de datos. La lista Python, por otro lado, contiene un puntero a un bloque de punteros, cada uno de los cuales a su vez apunta a un objeto Python completo como el entero Python que vimos anteriormente. Una vez más, la ventaja de la lista es la flexibilidad: debido a que cada elemento de lista es una estructura completa que contiene datos y información de tipo, la lista puede rellenarse con datos de cualquier tipo. Las matrices de estilo numérico (Numpy) de tipo fijo carecen de esta flexibilidad, pero son mucho más eficientes para almacenar y manipular datos.

In [3]:
# Ejemplo 

import time
from __future__ import division 

tam_vec = 1000
def lista_python():
    t1 = time.time()
    X = range(tam_vec)
    Y = range(tam_vec)
    Z = []
    for i in range(len(X)):
        Z.append(X[i] + Y[i])
    return time.time() - t1

def matriz_numpy():
    t1 = time.time()
    X = np.arange(tam_vec)
    Y = np.arange(tam_vec)
    Z = X + Y
    return time.time() - t1

t1 = lista_python()
t2 = matriz_numpy()
print(t1, t2)
print("Numpy es en este ejemplo " + str(t1/t2) + " mas rapido!")

0.0009975433349609375 0.0005011558532714844
Numpy es en este ejemplo 1.9904852521408183 mas rapido!


La manipulación de datos en Python es hablar de la manipulación de matrices en NumPy; incluso las herramientas  como Pandas  se construyen alrededor de las matriz de NumPy. 

### Atributos de las matrices de Numpy

In [4]:
import numpy as np
np.random.seed(0)

x1 = np.random.randint(10, size=6)  # matriz 1-d
x2 = np.random.randint(10, size=(5, 4))  # matriz-2d
x3 = np.random.randint(10, size=(2, 4, 5)) # matriz-3d

# Imprimimos los atributos : dim, shape, size, dtype, itemsize y nbytes

print("x2 ndim: ", x2.ndim)
print("x2 shape:", x2.shape)
print("x2 size: ", x2.size)


print("dtype:", x2.dtype)

print("itemsize:", x2.itemsize, "bytes")
print("nbytes:", x2.nbytes, "bytes")


x2 ndim:  2
x2 shape: (5, 4)
x2 size:  20
dtype: int32
itemsize: 4 bytes
nbytes: 80 bytes


### Indexación: acceso a un único elemento

In [5]:
x1

array([5, 0, 3, 3, 7, 9])

In [6]:
x1[0]

5

In [7]:
# Se puede usar indices negativos

x1[-1]

9

In [8]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7],
       [8, 1, 5, 9],
       [8, 9, 4, 3]])

In [9]:
x2[2]

array([1, 6, 7, 7])

In [10]:
x2[2,0]

1

In [11]:
x2[3, -2]

5

In [12]:
# modificamos un valor

x2[1, 2] = 12
x2

array([[ 3,  5,  2,  4],
       [ 7,  6, 12,  8],
       [ 1,  6,  7,  7],
       [ 8,  1,  5,  9],
       [ 8,  9,  4,  3]])

Tenga en cuenta que, a diferencia de las listas de Python, las matrices NumPy tienen un tipo fijo. Esto significa, por ejemplo, que si se intenta insertar un valor de punto flotante en una matriz de enteros, el valor se trunca.

In [13]:
x1[2] = 5.167 # El valor se trunca
x1

array([5, 0, 5, 3, 7, 9])

### Accediendo a submatrices (slicing)

In [14]:
x = np.arange(12)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [15]:
x[:6]

array([0, 1, 2, 3, 4, 5])

In [16]:
x[6:]

array([ 6,  7,  8,  9, 10, 11])

In [17]:
x[2 : 5 ]

array([2, 3, 4])

In [18]:
x[::3]

array([0, 3, 6, 9])

In [19]:
x[1::4] #  los otros elementos empezando desde 1

array([1, 5, 9])

In [20]:
x[::-1]

array([11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

In [21]:
x[5::-2]

array([5, 3, 1])

El slicing  multidimensional  funciona de la misma manera, con múltiples divisiones, separadas por comas. Por ejemplo:

In [22]:
x2

array([[ 3,  5,  2,  4],
       [ 7,  6, 12,  8],
       [ 1,  6,  7,  7],
       [ 8,  1,  5,  9],
       [ 8,  9,  4,  3]])

In [23]:
x2[:2, :3] # dos filas, tres columnas

array([[ 3,  5,  2],
       [ 7,  6, 12]])

In [24]:
x2[:3, ::2] 

array([[ 3,  2],
       [ 7, 12],
       [ 1,  7]])

In [25]:
# Se puede revertir el orden

x2[::-1, ::-1]

array([[ 3,  4,  9,  8],
       [ 9,  5,  1,  8],
       [ 7,  7,  6,  1],
       [ 8, 12,  6,  7],
       [ 4,  2,  5,  3]])

In [26]:
x2

array([[ 3,  5,  2,  4],
       [ 7,  6, 12,  8],
       [ 1,  6,  7,  7],
       [ 8,  1,  5,  9],
       [ 8,  9,  4,  3]])

In [27]:
print(x2[:, 0]) # primera columna de x2

[3 7 1 8 8]


In [28]:
print(x2[0, :]) # primera fila de x2

[3 5 2 4]


In [29]:
print(x2[3])  # equivalente a x2[3, :]

[8 1 5 9]


Un asunto  importante y extremadamente útil acerca del slicing de una  matriz es que devuelven  *vistas (`views`)* en lugar de *copias (`copies`)*  de los datos de la matriz. Este es un área en la que NumPy  difiere de la lista de Python:  en las listas, el slicing son copias.

In [30]:
print(x2)

[[ 3  5  2  4]
 [ 7  6 12  8]
 [ 1  6  7  7]
 [ 8  1  5  9]
 [ 8  9  4  3]]


In [31]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[3 5]
 [7 6]]


In [32]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  5]
 [ 7  6]]


Este comportamiento predeterminado es realmente muy útil: significa que cuando trabajamos con grandes conjuntos de datos, podemos acceder y procesar partes de estos conjuntos de datos sin necesidad de copiar el búfer de datos subyacente. A pesar de las características  de las `vistas` de una  matriz, a veces es útil copiar de forma explícita los datos dentro de una matriz o una submatriz. Esto se puede hacer  con el método `copy()`:

In [33]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


In [34]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [35]:
print(x2)

[[99  5  2  4]
 [ 7  6 12  8]
 [ 1  6  7  7]
 [ 8  1  5  9]
 [ 8  9  4  3]]


### Reshaping 

In [36]:
x4 = np.arange(1, 10).reshape((3, 3))
print(x4)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Ten en cuenta que para que esto funcione, el tamaño de la matriz inicial debe coincidir con el tamaño de la matriz rediseñada. Siempre que sea posible, el método `reshape` utilizará una `vista` sin copia de la matriz inicial. 

Otro patrón de `reshaping `, es la conversión de una matriz unidimensional en una fila o columna de una matriz bidimensional. Esto se puede hacer con el método `reshape`  o más fácilmente haciendo uso de `newaxis` dentro de una operación de división:

In [37]:
x5 = np.array([1, 2, 3])
x5

array([1, 2, 3])

In [38]:
# vector fila via reshape

x5.reshape((1, 3))

array([[1, 2, 3]])

In [39]:
# vector fila con newaxis

x5[np.newaxis, :]

array([[1, 2, 3]])

In [40]:
# vector columna via reshape

x5.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [41]:
# vector columna con newaxis

x5[:, np.newaxis]

array([[1],
       [2],
       [3]])

### Concatenación y  separación (splitting)

Es posible combinar varias matrices en una sola  y  a la inversa, dividir una única matriz en múltiples matrices. La operación  de  concatenación o unión de dos matrices en NumPy, se realiza principalmente utilizando las funciones  `np.concatenate`, `np.vstack` y `np.hstack`, `np.concatenate` toma una tupla o lista de matrices como primer argumento y devuelve una matriz.

In [42]:
x = np.array([4, 5, 6])
y = np.array([7, 8, 9])
np.concatenate([x, y])

array([4, 5, 6, 7, 8, 9])

In [43]:
# concatenacion de dos o mas matrices

z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 4  5  6  7  8  9 99 99 99]


In [44]:
# concatendo una matriz

grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

Para trabajar con matrices de distintas dimensiones, se usan las funciones `vstack` y `hstack`:

In [45]:
x = np.array([0, 1, 2])
grid = np.array([[3, 4, 5],
                 [6, 5, 4]])

# Se junta la matriz de manera vertical

np.vstack([x, grid])

array([[0, 1, 2],
       [3, 4, 5],
       [6, 5, 4]])

In [46]:
# Se junta la matriz de manera horizontal

y = np.array([[23],
              [23]])
np.hstack([grid, y])

array([[ 3,  4,  5, 23],
       [ 6,  5,  4, 23]])

Lo contrario de la concatenación es la división o separación, que es implementado por las funciones `np.split`, `np.hsplit` y `np.vsplit`. Para cada uno de estas funciones , podemos pasar una lista de índices que dan los puntos de división:

In [47]:
x = [1, 2, 3, 44, 95, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [44 95] [3 2 1]


In [48]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [49]:
grid1, grid2 = np.vsplit(grid, [2])
print(grid1)
print(grid2)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [50]:
grid3, grid4 = np.hsplit(grid,[2])
print(grid3)
print(grid4)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


## Funciones universales

El cálculo con matrices NumPy puede ser muy rápido o puede ser muy lento. La clave para hacer estos cálculos rápidamente, utilizamos operaciones vectorizadas, generalmente implementadas a través de las funciones universales de NumPy (`ufuncs`).

La lentitud relativa de Python generalmente se manifiesta en situaciones en las que se repiten muchas pequeñas operaciones, por ejemplo, realizar bucle sobre matrices para operar en cada elemento. Por ejemplo, supongamos que tenemos una matriz de valores y nos gustaría calcular el recíproco de cada uno. Una forma de resolver este problema es:

In [51]:
import numpy as np
np.random.seed(0)

def calcula_reciprocos(valores):
    salida = np.empty(len(valores))
    for i in range(len(valores)):
        salida[i] = 1.0 / valores[i]
    return salida
        
valores = np.random.randint(1, 10, size=5)
calcula_reciprocos(valores)

array([ 0.16666667,  1.        ,  0.25      ,  0.25      ,  0.125     ])

In [52]:
# hacemos un  benchmark con %timeit

b_matriz = np.random.randint(1, 100, size=1000000)
%timeit calcula_reciprocos(b_matriz)

1 loop, best of 3: 2.3 s per loop


Este programa, se tarda varios segundos para calcular este millón de operaciones y para almacenar el resultado. Resulta que el cuello de botella aquí no son las operaciones en sí, sino el tipo de comprobación y función de envios  que CPython debe hacer en cada ciclo del bucle. Cada vez que se calcula el recíproco, Python examina primero el tipo del objeto y realiza una búsqueda dinámica de la función correcta que se va a utilizar para ese tipo. Si estábamos trabajando en código compilado en su lugar, esta especificación de tipo se conocería antes de que el código se ejecute y el resultado podría ser calculado de manera mucho más eficiente.

Para muchos tipos de operaciones, NumPy proporciona una interfaz conveniente a este tipo de rutina compilada estáticamente. Esto se conoce como una `operación vectorizada` y se hace simplemente realizando una operación en la matriz, la cual se aplicará entonces a cada elemento. Este acercamiento vectorizado se diseña para empujar el bucle a la capa compilada que subyace NumPy, llevando a una ejecución mucho más rápida.

In [53]:
print(calcula_reciprocos(valores))
print(1.0 / valores)

[ 0.16666667  1.          0.25        0.25        0.125     ]
[ 0.16666667  1.          0.25        0.25        0.125     ]


In [54]:
%timeit (1.0 / b_matriz)

100 loops, best of 3: 8.12 ms per loop


Las operaciones vectorizadas en NumPy se implementan a través de `ufuncs`, cuyo propósito principal es ejecutar rápidamente operaciones repetidas sobre valores en matrices NumPy. `ufuncs` son extremadamente flexibles Y las operaciones de `ufunc` no se limitan a arreglos unidimensionales, sino que también pueden funcionar en arreglos multidimensionales:
 

In [55]:
np.arange(5) / np.arange(1, 6)

array([ 0.        ,  0.5       ,  0.66666667,  0.75      ,  0.8       ])

In [56]:
x = np.arange(12).reshape((4, 3))
2 ** x

array([[   1,    2,    4],
       [   8,   16,   32],
       [  64,  128,  256],
       [ 512, 1024, 2048]], dtype=int32)

Los cálculos que utilizan la vectorización a través de `ufuncs` son casi siempre más eficientes que su contraparte implementada usando bucles Python, especialmente a medida que las matrices crecen en tamaño. Hay `ufuncs` para operaciones aritméticas, valor absoluto, funciones trigónometricas, exponentes y logaritmos y funciones especializadas.

In [57]:
vector1 = np.arange(10)
np.sqrt(vector1)

array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712,  3.        ])

In [58]:
theta = np.linspace(0, np.pi, 3)
np.sin(theta)

array([  0.00000000e+00,   1.00000000e+00,   1.22464680e-16])

In [59]:
np.cos(theta)

array([  1.00000000e+00,   6.12323400e-17,  -1.00000000e+00])

In [60]:
x = [-1, 0, 1]
np.arcsin(x)

array([-1.57079633,  0.        ,  1.57079633])

NumPy tiene muchos más `ufuncs` disponibles, incluyendo funciones trigonométricas hiperbólicas, aritmética bit a bit, operadores de comparación, conversiones de radianes a grados, redondeos y restos y mucho más. 

Otra fuente excelente para `ufuncs` más especializados es el submódulo `scipy.special`. Hay demasiadas funciones para enumerarlas todas, pero el fragmento siguiente muestra un ejemplo  en el  contexto de estadísticas:

In [61]:
from scipy import special

In [62]:
# Ejemplo con la funcion error y su inversa

x = np.array([0, 0.3, 0.5, 1.5])
special.erf(x)

array([ 0.        ,  0.32862676,  0.52049988,  0.96610515])

In [63]:
special.erfinv(x)

array([ 0.        ,  0.27246271,  0.47693628,         inf])

Para cálculos grandes, a veces es útil poder especificar la matriz donde se almacenará el resultado del cálculo. Más que crear una matriz temporal, esto puede utilizarse para escribir resultados de cálculos directamente en una  ubicación de memoria elegida. Con `ufuncs`, esto se puede hacer usando el argumento `out`  de la función:

In [64]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
print(y)

[  0.  10.  20.  30.  40.]


Esto puede incluso ser utilizado con vistas de matriz. Por ejemplo, podemos escribir los resultados de un cálculo de cada elemento con  otro elemento de una matriz especificada:

In [65]:
y = np.zeros(10)
np.power(2, x, out=y[::2])
print(y)

[  1.   0.   2.   0.   4.   0.   8.   0.  16.   0.]


Si queremos reducir una matriz con una operación en particular, podemos usar el método `reduce` de cualquier `ufunc`. 

In [66]:
x = np.arange(1, 10)
np.add.reduce(x)

45

In [67]:
np.multiply.reduce(x)

362880

Si nos gustaría almacenar todos los resultados intermedios de una operación,  podemos utilizar la función `accumulate`:

In [68]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45], dtype=int32)

In [69]:
np.multiply.accumulate(x)

array([     1,      2,      6,     24,    120,    720,   5040,  40320,
       362880], dtype=int32)

## Indexado adornado (fancy)

Existe  otro estilo de indexación de una matriz, conocido como `indexación adornada (fancy)`. Este tipo de indexación  es como la simple indexación, pero aquí  pasamos matrices de índices en lugar de escalares individuales. Esto nos permite acceder y modificar muy rápidamente los subconjuntos complicados de los valores de una matriz.

In [70]:
rand = np.random.RandomState(42)

x = rand.randint(100, size=10)
print(x)

[51 92 14 71 60 20 82 86 74 74]


In [71]:
# Accedemos a tres elementos diferentes

[x[1], x[5], x[2]]

[92, 20, 14]

Alternativamente, podemos pasar una sola lista o matriz de índices para obtener el mismo resultado:

In [72]:
ind = [1, 5, 2]
x[ind]

array([92, 20, 14])

Cuando se utiliza indexación decorada , la forma del resultado refleja la forma de las matrices de índice en lugar de la forma de la matriz que se indexa y trabaja  en múltiples  dimensiones:

In [73]:
ind = np.array([[1, 5],
                [2, 6]])
x[ind]

array([[92, 20],
       [14, 82]])

In [74]:
X = np.arange(12).reshape((3, 4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Al igual que con la indexación estándar, el primer índice se refiere a la fila, y el segundo a la columna:

In [75]:
fila = np.array([0, 1, 2])
col = np.array([2, 1, 3])
X[fila, col]

array([ 2,  5, 11])

Observa que el primer valor en el resultado es `X[0, 2]`, el segundo es `X[1, 1]`  y el tercero es `X[2, 3]`. El emparejamiento de índices en la indexación decorada  sigue todas las reglas del broadcasting, por ejemplo, si combinamos un vector de columna y un vector de fila dentro de los índices, obtenemos un resultado bidimensional:

In [76]:
X[fila[:, np.newaxis], col]

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

Aquí, cada valor de fila se empareja con cada vector de columna, exactamente como se hace en broadcasting  de operaciones aritméticas. Por ejemplo:

In [77]:
fila[:, np.newaxis] * col

array([[0, 0, 0],
       [2, 1, 3],
       [4, 2, 6]])

Siempre es importante recordar que en  la indexación adornada, el valor de retorno refleja la forma del broadcasting  de los índices, en lugar de la forma de la matriz que se indexa.

Para operaciones  más potentes, la indexación adornada se puede combinar con los otros esquemas de indexación que existen:

In [78]:
print(X)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [79]:
# Combinando indexado adornado y indices simples

X[2, [2, 0, 1]]

array([10,  8,  9])

In [80]:
# Combinando indexado adornado con slicing 

X[1:, [2, 0, 1]]

array([[ 6,  4,  5],
       [10,  8,  9]])

In [81]:
# Conbinando  indexación adornada con enmascaramiento (masking):

enmascarado = np.array([1, 0, 1, 0], dtype=bool)
X[fila[:, np.newaxis], enmascarado]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

Así como la indexación adornada  se puede utilizar para acceder a partes de una matriz, también se puede utilizar para modificar partes de una matriz. Por ejemplo, si  tenemos una matriz de índices y nos gustaría establecer los elementos correspondientes en una matriz a algún valor, podemos hacer lo siguiente:

In [82]:
x = np.arange(10)
i = np.array([2, 1, 8, 4])
x[i] = 99
print(x)

[ 0 99 99  3 99  5  6  7 99  9]


Los índices repetidos con estas operaciones pueden causar algunos resultados potencialmente inesperados. Considera lo siguiente:

In [83]:
x = np.zeros(10)
x[[0, 0]] = [4, 6]
print(x)

[ 6.  0.  0.  0.  0.  0.  0.  0.  0.  0.]


El resultado de esta operación es asignar primero  `x[0] = 4`, seguido por `x[0] = 6`. Pero el resultado es que `x[0]` contiene el valor 6.  Muy correcto , pero considere esta operación:

In [84]:
i = [2, 3, 3, 4, 4, 4]
x[i] += 1
x

array([ 6.,  0.,  1.,  1.,  1.,  0.,  0.,  0.,  0.,  0.])

En este caso algún resultado inesperado se debe conceptualmente  a que `x[i] +=1` se entiende como una abreviatura de `x[i] = x [i] + 1`. Cuando `x[i] + 1` es evaluado el resultado es asignado  a los índices en `x` . Con esto en mente, no es que el aumento que ocurre varias veces, sino la asignación, que conduce a los resultados  no intuitivos.

Si quieremos  el otro comportamiento donde se repite la operación, se puede utilizar el método `at()` de `ufuncs`: 

In [85]:
x = np.zeros(10)
np.add.at(x, i, 1)
print(x)

[ 0.  0.  1.  2.  3.  0.  0.  0.  0.  0.]


El método `at()` realiza una aplicación  del operador dado en los índices especificados (aquí, `i`) con el valor especificado (aquí, `1`).

## Ordenamiento 

La función de `np.sort` usa un algoritmo  $0(N\log N)$,  *quicksort* que  es mucho más eficiente  y útil para nuestra tareas. 

In [86]:
x = np.array([2, 1, 4, 3, 5])
np.sort(x)

array([1, 2, 3, 4, 5])

La función `argsort`, retorna los índices de los elementos ordenados.

In [87]:
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)
print(i)

[1 0 3 2 4]


Una característica útil de  NumPy es la capacidad de ordenar las filas o columnas específicas de una matriz multidimensional utilizando el argumento `axis`. Por ejemplo:

In [88]:
rand = np.random.RandomState(42)
X = rand.randint(0, 10, (4, 6))
print(X)

[[6 3 7 4 6 9]
 [2 6 7 4 3 7]
 [7 2 5 4 1 7]
 [5 1 4 0 9 5]]


In [89]:
# ordenando cada columna de X

np.sort(X, axis=0)

array([[2, 1, 4, 0, 1, 5],
       [5, 2, 5, 4, 3, 7],
       [6, 3, 7, 4, 6, 7],
       [7, 6, 7, 4, 9, 9]])

In [90]:
# Ordenando cada fila de X

np.sort(X, axis=1)

array([[3, 4, 6, 6, 7, 9],
       [2, 3, 4, 6, 7, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 5, 9]])

A veces no estamos interesados en ordenar la matriz completa, sino simplemente queremos encontrar los k valores más pequeños en la matriz. NumPy proporciona la función np.partition, que toma una matriz y un número k, el resultado es una nueva matriz con los valores k más pequeños a la izquierda de la partición y los valores restantes a la derecha, en orden arbitrario:

In [91]:
x = np.array([7, 2, 3, 1, 6, 5, 4])
np.partition(x, 3)

array([2, 1, 3, 4, 6, 5, 7])

Podemos particionar a lo largo de un eje arbitrario de una matriz multidimensional:

In [92]:
np.partition(X, 2, axis=1)

array([[3, 4, 6, 7, 6, 9],
       [2, 3, 4, 7, 6, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 9, 5]])

### Lectura recomendada: [Numpy Reference](https://docs.scipy.org/doc/numpy/reference/).