# Aprendiendo Numpy
Avanzado

## Funcionamiento interno
Además de un apuntador a memoria que contiene los datos, Numpy almacena 

* el `dtype`, esto es, el tipo de dato de cada elemento,
* una tupla indicando el `shape` o forma que tiene el arreglo
* otra tupla llamada `strides` o zancadas, indicando cuantos bytes tiene que "brincar" para avanzar en cada dimensión

Por ejemplo:

In [2]:
import numpy as np
unos = np.ones((10, 5))
unos

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

In [3]:
print(unos.dtype)
print(unos.shape)
print(unos.strides)

float64
(10, 5)
(40, 8)


In [12]:
doses = np.ones((3,4,5), dtype="int64") * 2
doses

array([[[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]],

       [[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]],

       [[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]]])

In [14]:
print(doses.dtype)
print(doses.shape)
print(doses.strides)

int64
(3, 4, 5)
(160, 40, 8)


## Más sobre reshape

In [15]:
arr = np.arange(8)
arr2d = arr.reshape((4,2))
arr2d

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [16]:
# reshape de arreglos multidimensionales
arr2d.reshape((2,4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [21]:
# -1 en una de las dimensiones permite a Numpy inferir el tamaño en dicha dimensión
arr = np.arange(15)
arr.reshape((-1, 3))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [22]:
# usando el shape de otro arreglo
otro_arreglo = np.ones((3,5))
otro_arreglo.shape

(3, 5)

In [23]:
arr.reshape(otro_arreglo.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

La operación contraria de reshape es `flatten` (aplanar) o `ravel` (embrollar)

In [10]:
arr = np.arange(15).reshape((5,3))
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [11]:
# flatten SIEMPRE devuelve una copia
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [12]:
# ravel sólo devuelve copia si es necesario ...
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

## Orden de almacenamiento de arreglos de C vs Fortran

* En C, cada elemento de un renglón se almacena en posiciones consecutivas de memoria
* En Fortran, cada elemento de una columna se almacena en posiciones consecutivas de memoria

(es cuestión de preferencias)

* En Numpy por default, funciones como reshape y ravel utilizan el almacenamiento con el orden de 'C'
* Esto se puede modificar pasando el parámetro 'F', para que lo haga con el orden de Fortran

Ejemplo:

In [13]:
arr = np.arange(12).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [14]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [15]:
arr.ravel('F')

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

In [16]:
arr1 = np.arange(12)
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [17]:
# En el reshape, es interesante ver que se trata de los mismos datos (y no de una transpuesta)
# sólo que significa algo diferente para cada orden
arrC = arr1.reshape((3,4), order='C')
print(arrC)
print(arrC.strides)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
(32, 8)


In [18]:
arrF = arr1.reshape((3,4), order='F')
print(arrF)
print(arrF.strides)

[[ 0  3  6  9]
 [ 1  4  7 10]
 [ 2  5  8 11]]
(8, 24)


Para más dimensiones, se toman las siguientes reglas:

* Orden de C (o renglones primero), atraviesa las dimensiones más altas primero
* Orden de Fortran (o columnas primero), atraviesa las dimensiones más bajas primero

(es un poco "mind-bending")

## Concatenación y separación

In [19]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])
np.concatenate([arr1, arr2], axis=0)  # axis=0 significa concatena por renglones (es el default)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [20]:
np.concatenate([arr1, arr2], axis=1)  # axis=1 significa concatena por columnas

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [21]:
# Como estas dos formas son bastante comunes, en arreglos bidimensionales
# se suele frecuentar más `vstack` (acomoda verticalmente) y `hstack` (acomoda horizontalmente)
np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [22]:
np.hstack(((arr1, arr2)))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [23]:
# Si recordamos, split() en python significa separar en listas una cadena utilizando un caracter separador (default=" ")
"El respeto al derecho ...".split()

['El', 'respeto', 'al', 'derecho', '...']

In [24]:
# En numpy, se separan arreglos
from numpy.random import randn
arr = randn(5,2)
arr

array([[ 0.50408232, -0.86638835],
       [ 0.45514676, -1.87600508],
       [ 1.04611488,  0.42811047],
       [ 1.1423215 ,  0.55868977],
       [-0.60478865,  0.94311051]])

In [25]:
primero, segundo, tercero = np.split(arr, [1, 3])
primero  # del inicio, al renglón (se está usando el default axis=0) anterior al de índice 1

array([[ 0.50408232, -0.86638835]])

In [26]:
segundo  # del renglón de índice 1 al anterior al de índice 3

array([[ 0.45514676, -1.87600508],
       [ 1.04611488,  0.42811047]])

In [27]:
tercero  # del renglón de índice 3 al final.

array([[ 1.1423215 ,  0.55868977],
       [-0.60478865,  0.94311051]])

In [28]:
np.split(arr, [1, 2, 3])

[array([[ 0.50408232, -0.86638835]]),
 array([[ 0.45514676, -1.87600508]]),
 array([[ 1.04611488,  0.42811047]]),
 array([[ 1.1423215 ,  0.55868977],
        [-0.60478865,  0.94311051]])]

In [29]:
col1, col2 = np.split(arr, [1], axis=1)
col1

array([[ 0.50408232],
       [ 0.45514676],
       [ 1.04611488],
       [ 1.1423215 ],
       [-0.60478865]])

In [30]:
col2

array([[-0.86638835],
       [-1.87600508],
       [ 0.42811047],
       [ 0.55868977],
       [ 0.94311051]])

Ej. cómo separarías un arreglo de 3xn en columnas?

In [31]:
%pwd

'/Users/fhca/Desktop/CONEVAL/Material/nuevas libretas'

![Funciones de concatenación y split](img/np2/numpy_concatena.png)

Además existen los objetos `r_` y `c_` (no son funciones) para hacer algo similar:

In [37]:
arr = np.arange(6)
arr1 = randn(3,2)
arr2 = randn(3,2)
arr1

array([[ 0.16559668,  0.20773825],
       [-0.42190002,  0.10970882],
       [-0.78572137,  1.91623088]])

In [38]:
arr2

array([[-0.53046394, -0.7247291 ],
       [ 0.58463983,  0.37819561],
       [-0.35218106,  1.1912446 ]])

In [39]:
np.r_[arr1, arr2]

array([[ 0.16559668,  0.20773825],
       [-0.42190002,  0.10970882],
       [-0.78572137,  1.91623088],
       [-0.53046394, -0.7247291 ],
       [ 0.58463983,  0.37819561],
       [-0.35218106,  1.1912446 ]])

In [41]:
np.c_[arr1, arr2]

array([[ 0.16559668,  0.20773825, -0.53046394, -0.7247291 ],
       [-0.42190002,  0.10970882,  0.58463983,  0.37819561],
       [-0.78572137,  1.91623088, -0.35218106,  1.1912446 ]])

In [42]:
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.16559668,  0.20773825,  0.        ],
       [-0.42190002,  0.10970882,  1.        ],
       [-0.78572137,  1.91623088,  2.        ],
       [-0.53046394, -0.7247291 ,  3.        ],
       [ 0.58463983,  0.37819561,  4.        ],
       [-0.35218106,  1.1912446 ,  5.        ]])

In [43]:
# r_ y c_ además convierten la notación de rebanadas en arreglos
np.c_[1:6, -10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

In [53]:
np.r_[1:6:10j]  # 10= num de puntos requerido, incluyendo 1 y 6

array([ 1.        ,  1.55555556,  2.11111111,  2.66666667,  3.22222222,
        3.77777778,  4.33333333,  4.88888889,  5.44444444,  6.        ])

In [71]:
np.r_[1:5, 1:7, 1:4]  # slices separados por comas, concatena equivalente a 
# np.concatenate([range(1,5), range(1,7), range(1,4)])

array([1, 2, 3, 4, 1, 2, 3, 4, 5, 6, 1, 2, 3])

In [72]:
# el 1er elemento puede ser una cadena
np.r_['r', 1:10]  # con un solo slice, devuelve objetos matriz ('r' = renglón)

matrix([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [73]:
np.r_['c', 1:10]  # ('c'=columna)

matrix([[1],
        [2],
        [3],
        [4],
        [5],
        [6],
        [7],
        [8],
        [9]])

In [70]:
np.r_['c',arr1]  # con arreglos 2d, los devuelve como objeto matriz (lo mismo con 'r')

matrix([[ 0.16559668,  0.20773825],
        [-0.42190002,  0.10970882],
        [-0.78572137,  1.91623088]])

In [None]:
# si el 1er elemento es una cadena con 3 enteros separados por coma
# el 1o significa el eje sobre el cual concatenar
# el 2o significa el mínimo número de dimensiones
# el 3o significa, sobre que dimensión (de la tupla shape) se comenzarán a poner los primeros elementos concatenados

In [104]:
np.r_['0,2,1', [1,2,3],[4,5,6],[7,8,9]]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## Tile y repeat

In [105]:
arr = np.arange(4)
arr.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3])

In [107]:
arr.repeat([2,3,4,5])  #len del parámetro = len(arr)

array([0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3])

In [108]:
arr = randn(2, 2)
arr

array([[-1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401]])

In [109]:
arr.repeat(2, axis=0)

array([[-1.40946511,  0.89302893],
       [-1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401],
       [-1.3494075 ,  0.34573401]])

In [110]:
arr.repeat(2)  # si no se le pasa axis, el arr primero se aplana

array([-1.40946511, -1.40946511,  0.89302893,  0.89302893, -1.3494075 ,
       -1.3494075 ,  0.34573401,  0.34573401])

In [111]:
arr.repeat(2, axis=1)

array([[-1.40946511, -1.40946511,  0.89302893,  0.89302893],
       [-1.3494075 , -1.3494075 ,  0.34573401,  0.34573401]])

In [112]:
arr.repeat([2,3], axis=1)

array([[-1.40946511, -1.40946511,  0.89302893,  0.89302893,  0.89302893],
       [-1.3494075 , -1.3494075 ,  0.34573401,  0.34573401,  0.34573401]])

In [113]:
arr

array([[-1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401]])

In [116]:
np.tile(arr, 2)  # repite el arr completo, como pegando lozetas

array([[-1.40946511,  0.89302893, -1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401, -1.3494075 ,  0.34573401]])

In [117]:
np.tile(arr, (3,2))  # repite arr 3 veces "hacia abajo" y 2 veces "hacia la derecha"

array([[-1.40946511,  0.89302893, -1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401, -1.3494075 ,  0.34573401],
       [-1.40946511,  0.89302893, -1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401, -1.3494075 ,  0.34573401],
       [-1.40946511,  0.89302893, -1.40946511,  0.89302893],
       [-1.3494075 ,  0.34573401, -1.3494075 ,  0.34573401]])

In [164]:
arr = np.c_['c', :10]
np.array(np.tile(arr, 5))

array([[0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4],
       [5, 5, 5, 5, 5],
       [6, 6, 6, 6, 6],
       [7, 7, 7, 7, 7],
       [8, 8, 8, 8, 8],
       [9, 9, 9, 9, 9]])

## Mas sobre indexado lujoso: take y put

In [122]:
arr = np.arange(10) * 100
indices = [7,1,2,6]
arr

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [123]:
arr[indices]

array([700, 100, 200, 600])

In [124]:
arr.take(indices)

array([700, 100, 200, 600])

In [126]:
arr.put(indices, 42)
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [132]:
arr.put(indices, [40,41,42,43])
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [133]:
arr.put(indices, [40,41])
arr

array([  0,  41,  40, 300, 400, 500,  41,  40, 800, 900])

In [134]:
# take con axis
inds = [2, 0, 2, 1]
arr = randn(2, 4)
arr

array([[ 0.95948695, -0.49816073,  1.27603173,  2.26230852],
       [-0.17499349,  0.05830895,  1.43943982,  0.51406629]])

In [135]:
arr.take(inds, axis=1)  # toma columnas completas segun el inds

array([[ 1.27603173,  0.95948695,  1.27603173, -0.49816073],
       [ 1.43943982, -0.17499349,  1.43943982,  0.05830895]])

In [137]:
arr = randn(1000, 50)
inds = np.random.permutation(1000)[:500]

In [140]:
#actualmente indexado lujoso y take tardan casi lo mismo
%timeit arr[inds]

The slowest run took 6.35 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 19.1 µs per loop


In [141]:
%timeit arr.take(inds, axis=0)

The slowest run took 27.09 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 18.3 µs per loop


## Transmisión (broadcasting)
o cómo suceden la aritmética entre arreglos de diferentes shapes

In [166]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [167]:
arr*4  # se dice que el 4 se a transmitido a todos los elementos con la multiplicación

array([ 0,  4,  8, 12, 16])

In [168]:
arr = randn(4,3)
arr

array([[ 0.56058051,  0.49762379,  1.22695958],
       [-0.57149661,  1.57422678, -2.21615801],
       [-1.53825088,  1.04875348, -0.99316753],
       [ 0.63172638,  1.1104843 ,  0.61639618]])

In [169]:
arr.mean(0)  # promedio tomando los elementos de cada renglón  axis=0

array([-0.22936015,  1.05777209, -0.34149244])

In [170]:
sin_media = arr - arr.mean(0)
sin_media

array([[ 0.78994066, -0.56014829,  1.56845203],
       [-0.34213646,  0.51645469, -1.87466557],
       [-1.30889073, -0.00901861, -0.65167509],
       [ 0.86108653,  0.05271221,  0.95788863]])

In [171]:
sin_media.mean(0)  # ahora la media es cero para cada columna

array([ 0.,  0.,  0.])

In [174]:
# hay que tener cuidado para hacer lo mismo con el promedio de cada renglón
arr

array([[ 0.56058051,  0.49762379,  1.22695958],
       [-0.57149661,  1.57422678, -2.21615801],
       [-1.53825088,  1.04875348, -0.99316753],
       [ 0.63172638,  1.1104843 ,  0.61639618]])

In [175]:
arr.mean(1)

array([ 0.7617213 , -0.40447595, -0.49422164,  0.78620229])

In [177]:
# sin_media = arr - arr.mean(1)   # ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [179]:
prom_por_renglon = arr.mean(1).reshape((4,1))
prom_por_renglon

array([[ 0.7617213 ],
       [-0.40447595],
       [-0.49422164],
       [ 0.78620229]])

In [181]:
cols_sin_media = arr - prom_por_renglon
cols_sin_media

array([[-0.20114079, -0.2640975 ,  0.46523829],
       [-0.16702066,  1.97870273, -1.81168206],
       [-1.04402924,  1.54297512, -0.49894589],
       [-0.15447591,  0.32428201, -0.1698061 ]])

In [182]:
cols_sin_media.mean(1)  # de nuevo ceros

array([  1.85037171e-17,   7.40148683e-17,  -5.55111512e-17,
        -1.11022302e-16])

### Regla para aplicar transmisión
Dos arreglos son compatibles para transmisión si leyendo los shapes de derecha a izquierda, o coinciden o es 1 para alguno de los arreglos. La transmisión se hace sobre las dimensiones faltantes o de longitud 1

Ejemplos de shapes de arreglos compatibles:

* (4, 3)  y  (3,)  # la transmisión se hace sobre los 4 renglones
* (4, 3)  y  (4, 1)  # (3 y 1 no coinciden, pero como uno de ellos es 1, si se puede hacer la transm sobre las col.)
* (3, 4, 2) y (4, 2)  # la transmisión se hace sobre las 3 submatrices

![Transmisión 1](img/np2/transmision1.png)
![Transmisión 2](img/np2/transmision2.png)
![Transmisión 3](img/np2/transmision3.png)
![Transmisión 4](img/np2/transmision4.png)