# Prerequisitos Numpy - Parte 1

Numpy es una librería de computación numérica para ciencia de datos, vendría siendo como el matlab (a nivel de operaciones) pues lo hace de forma eficiente.

Aqui aprenderemos a utilizar numpy importandolo para
- Crear y manipular arreglos
- Salvar arreglos
- Cargar dichos arreglos
- Partir y seleccionar sub arreglos
- Indexamiento booleano o cambiar el subset del array
- Ordenar los arreglos
- Hacer operaciones de elementos

Para instalar numpy lo puede hacer con pip o conda, pero con conda debería venir instalado intrinsecamente.  Podemos ver la version de numpy instalada con el siguiente comando:

    pip show numpy
    
<img src="imgs/pipshownumpy.PNG" width="850"/>

Si quisieramos tambien podemos instalar una versión de numpy inferior pero existente, por ejemplo, para instalar una versión anterior podemos hacer el downgrade como sigue:

    conda install numpy==1.13.0

Exortamos que se revise en cada momento que no tenga seguridad la librería numpy en su [manual en línea](https://numpy.org/).

#### ¿Porqué debemos utilizar numpy?

No es necesario pero esta librería tiene más de lo que necesitamos ademas de algebra de vectores.  Veamos un ejemplo de uso de numpy.

In [1]:
# importamos librerias
import time as t
import numpy as np

In [2]:
# con funciones estandares
x = np.random. random(1000000) # genera un arreglo aleatorio de datos enteros
start = t.time()           # toma el tiempo inicial
sum(x)/len(x)               # promedio
end = t.time() - start     # calcula cuando demora el ciclo
print('function elapsed ',end)

function elapsed  0.1600356101989746


In [3]:
# con numpy
x = np.random. random(1000000) # genera un arreglo aleatorio de datos enteros
start = t.time()           # toma el tiempo inicial
np.sum(x)/len(x)               # promedio
end = t.time() - start     # calcula cuando demora el ciclo
print('function elapsed ',end)

function elapsed  0.0020017623901367188


####  Creando y salvando arreglos

Podemos crear arreglos de python creando varias funciones built in.  Podemos crear arreglos de numpy tambien por medio de otras listas, que es lo que haremos aquí.  Veamos el ejemplo

In [4]:
import numpy as np

x = np.array([10, 20, 30, 40])
print(x, type(x), x.dtype)

[10 20 30 40] &lt;class &#39;numpy.ndarray&#39;&gt; int32


Notamos entonces que podemos ver simplemente los valores de lista, establecer y ver el tipo de dato de numpy y también observamos que .dtype nos da el tipo de datos en el arreglo de numpy que es diferente a el tipo de variable que genera numpy.  Revisar la documentación para ver los diferentes estilos de datos que maneja numpy.

In [5]:
x.shape

(4,)

Esta funcion built in de numpy nos da el formato del arreglo, en este caso (4,).  Esto significa que es un arreglo de 4 filas, pero, vemos que despues de la coma no existe un 1, que sería lo lógico pues es un arreglo de 4x1 (filas x columnas).  Sucede que intrinsicamente numpy lo arregla de esta manera, es un 1.  En este caso, al arreglo se le conoce como vector.

Si fueste un arreglo multidimensional tuvieramos esta parte con el número de filas del arreglo.  Veamos el siguiente ejemplo para arreglos multidimensionales.

In [6]:
x = np.array([[int(j*i) for i in range(1,5)] for j in range(1,6)])

In [7]:
x, x.shape, x.dtype, x.size

(array([[ 1,  2,  3,  4],
        [ 2,  4,  6,  8],
        [ 3,  6,  9, 12],
        [ 4,  8, 12, 16],
        [ 5, 10, 15, 20]]),
 (5, 4),
 dtype(&#39;int32&#39;),
 20)

Ahora observamos varias cosas.  El arreglo cuando imprimimos la forma vemos una dimensión más anotada dictaminando las columnas a cuatro, el arreglo es de dos dimensiones 5x4 de tipo int32.

Tambien observamos que podemos tener la cantidad de elementos en el arreglo por medio del atributo .size.

A los arreglos de una dimensión se les llama vectores, otra forma de llamarlos es arreglos de rank-1 (rango 1).  Y a estos arreglos de dos dimensiones rank-2.  Existen más dimensiones y mas rangos, pero por el momento lo dejaremos así y veremos más de estos en otra ocasión.

In [8]:
x = np.array(['Inteligencia', 'Artificial'])
print(x, x.shape, type(x), x.dtype, x.size)

[&#39;Inteligencia&#39; &#39;Artificial&#39;] (2,) &lt;class &#39;numpy.ndarray&#39;&gt; &lt;U12 2


Observamos que  entonces no camba el tipo de arreglo, sigue siendo un ndarray, sin embargo el tipo interno de dato es almacenado en un formato llamado Unicode, en este caso es un unicode de 12 caracteres.

Pregunta!, que sucedería si creamos un arreglo mixto en numpy, vimos anteriormente que las listas (que son arreglos primitivos) no permiten este tipo de iteracción, en el ejemplo veremos que sucede.

In [9]:
x = np.array([1,2,3,4, 'Inteligencia', 'Artificial'])
print(x, x.shape, type(x), x.dtype, x.size)

[&#39;1&#39; &#39;2&#39; &#39;3&#39; &#39;4&#39; &#39;Inteligencia&#39; &#39;Artificial&#39;] (6,) &lt;class &#39;numpy.ndarray&#39;&gt; &lt;U12 6


Bien, ya observó que python y especificamente numpy convierte al tipo de datos que abarque y pueda cumplir con el requerimiento.  Unicode de 12 elementos.  Veamos otro ejemplo de enteros y flotantes.

In [10]:
x = np.array([1,2,3.0,4])
print(x, x.shape, type(x), x.dtype, x.size)

[1. 2. 3. 4.] (4,) &lt;class &#39;numpy.ndarray&#39;&gt; float64 4


También numpy hace la conversión del arreglo, en esta ocasión tenemos que transforma al tipo de dato por medio de algo llamado casting (upcasting en este caso) de tipo float64.  Con numpy también podemos especificar el tipo de datos para crear el arreglo.  Veamos el ejemplo.

In [11]:
x = np.array([1,2,3,4,5,6,8.2],dtype=np.int32)
print(x, x.shape, type(x), x.dtype, x.size)

[1 2 3 4 5 6 8] (7,) &lt;class &#39;numpy.ndarray&#39;&gt; int32 7


Esto sirve para forzar el arreglo para que sea de ese tipo de datos o forzarlos a este tipode datos.

Podemos entonces salvar el arreglo también y volver a cargarlo a memoria, veamos el ejemplo.

In [12]:
x = np.array([1,2,3,4])
np.save('saved_array', x)
del x # borramos la variable, solo como ejemplo

Si revisa la carpeta (donde se encuentra alojado este notebook), se dará cuenta que existe un archivo *saved_array.npy* que representa el archivo guardado.  Para cargarlo vea el siguiente ejemplo

In [13]:
type(x) # al ejecutar nos dará error, porque no existe en memoria, fue borrada anteriormente

NameError: name &#39;x&#39; is not defined

En lineas anteriores vemos que borré la variable x y lo comprobamos por medio de viendo el tipo, ahora vamos a cargar los datos del arreglo en la variable x

In [14]:
x = np.load('saved_array.npy')
print(x)

[1 2 3 4]


### Utilizando funciones built-in para crear ndarrays

Debajo vemos la manera estándar de creación de arreglos, pero en las siguientes líneas vemos que numpy ofrece crear más tipos de arreglos ademas de estos, son útiles para cualquier tipo de situación y más en la parte científica de python.

In [15]:
x = [1,2,3,4,5,6,7,8,9,10]
np.array(x)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Veamos como crear un arreglo de ceros en numpy.  Simplemente llamamos la función zeros() donde la entrada es un tuple que simboliza el tamaño del arreglo, el cual puede ser unidimensional o multidimensional debido a que numpy ofrece la capacidad de trabajar con n-dimensional arrays.

In [16]:
x = np.zeros((5,8))
x

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

In [17]:
x = np.ones((3,4))
y = np.eye(5)
print(x)
print()
print(y)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


Vemos que también podemos crear arreglos de unos y también una matriz identidad, para otros problemas de ciencia de datos este tipo de preparación de arreglos es importante, veamos el siguiente ejemplo de como crear un arreglo con un numero fijo de datos.

In [18]:
x = np.full((4,4),2.2)
print(x)

[[2.2 2.2 2.2 2.2]
 [2.2 2.2 2.2 2.2]
 [2.2 2.2 2.2 2.2]
 [2.2 2.2 2.2 2.2]]


Excelente, la funcion built-in full() nos permite crear un arreglo con algun tipo de datos insertado.  Veamos como crear una matriz diagnonal con numeros arbitrarios, o mas bien, nuestros propios números.

In [19]:
x = np.diag([1, 2, 3, 4])
x

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

Muy util, pero que sucede si quiero una manera sencilla de crear vectores, numpy también ofrece una funcion para esto.  Podemos usar en numpy arange(start,step,stop).  Note que la generación de estos números con arange() siempre es entero.

In [20]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
x = np.arange(2,10)
x

array([2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
x = np.arange(2,20,3)
x

array([ 2,  5,  8, 11, 14, 17])

Para cuando queremos crear otro tipo de datos flotantes no utilizamos esta función sino una diferente llamada linspace() veamos el ejemplo.

In [23]:
x = np.linspace(0, 30, 20)
print(x)

[ 0.          1.57894737  3.15789474  4.73684211  6.31578947  7.89473684
  9.47368421 11.05263158 12.63157895 14.21052632 15.78947368 17.36842105
 18.94736842 20.52631579 22.10526316 23.68421053 25.26315789 26.84210526
 28.42105263 30.        ]


¿Qué hizo la función?, pues simple, los dos primeros datos son el inicio y el fin del arreglo y el útlimo argumento de la funcion linspace() nos dice cuantos datos existen en el arreglo, la función entonces intentará hacer extrapolaciones de los datos intermedios llenando el arreglo con los datos faltantes.

existe una posibilidad de hacer con linspace que no nos de (o mas bien trata de hacer fit a los datos que genera, para no tener tanta precision) veamos como.

In [24]:
x = np.linspace(0, 30, 20, endpoint=False)
print(x)

[ 0.   1.5  3.   4.5  6.   7.5  9.  10.5 12.  13.5 15.  16.5 18.  19.5
 21.  22.5 24.  25.5 27.  28.5]


Hasta el momento hemos utilizado las funciones anteriores para arreglos de una dimensión.  Pero nos tocará en casos y en especial en redes neuronales hacer la conversión de datos a un arreglo de diferente dimensión.  Veamos un ejemplo que clarifica este párrafo.

In [25]:
x = np.reshape(x, (5,4))
print(x)

[[ 0.   1.5  3.   4.5]
 [ 6.   7.5  9.  10.5]
 [12.  13.5 15.  16.5]
 [18.  19.5 21.  22.5]
 [24.  25.5 27.  28.5]]


Si observamos anteriormente, el arreglo es de 20x1 pero ahora lo hemos convertidos a un arreglo de 5x4.  ¿Qué sucedería si aplicamos lo mismo pero para un arreglo de más variables de las que posee?

In [26]:
x = np.reshape(x, (8,10))
print(x)

ValueError: cannot reshape array of size 20 into shape (8,10)

Lógico, estamos pidiendo un arreglo de 80 elementos pero el arreglo solamente tiene 20, como puede ver en la línea 

*ValueError:  cannot reshape array of size 20 into shape (8,10)*

Algunas funciones de numpy nos permiten operar como métodos con notación de punto.  Veamos como podemos hacer el mismo resultado con una sola línea de código.

In [27]:
x = np.arange(30).reshape((6,5))
print(x)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]


In [28]:
x = np.linspace(1, 30, 20, endpoint=False).reshape((10,2))
print(x)

[[ 1.    2.45]
 [ 3.9   5.35]
 [ 6.8   8.25]
 [ 9.7  11.15]
 [12.6  14.05]
 [15.5  16.95]
 [18.4  19.85]
 [21.3  22.75]
 [24.2  25.65]
 [27.1  28.55]]


Vimos entonces que podemos usar las funciones de numpy para hacer lo mismo en una sola línea, esto acelera la codificación y nos ayuda a entender lo que estamos ahciendo.

Por ejemplo analizando la última línea de funcion vemos que:
- Creamos un arreglo de inici en 1 fin en 30 con 20 elementos y comprimido en información
- Luego lo formateamos y lo volvemos un arreglo multidimensional de 10x2

Para redes neuronales nos interesa crear numeros o pesos aleatorios, numpy nos permite crear numeros aleatorios de numeros entre 0-1 de la siguiente manera.

In [29]:
x = np.random.random((3,9))
print(x)

[[0.84470593 0.69606649 0.82845575 0.70355521 0.36057424 0.09204263
  0.70779346 0.26044958 0.68982204]
 [0.0729945  0.89612818 0.14240021 0.89660194 0.38468388 0.91120756
  0.61212459 0.63489781 0.12324224]
 [0.50160392 0.44509248 0.93702202 0.61351731 0.46783084 0.92558658
  0.80747258 0.26948307 0.63461126]]


Vimos anterioremnte que podemos crear numeros aleatorios de punto fijo, pero también numpy nos permite crear numeros aleatorios de forma de una matriz multidimensional, veamos el ejemplo.

In [30]:
x = np.random.randint(2, 20, (4,3))
print(x)

[[ 5  8  6]
 [11 19 12]
 [12 18 16]
 [19 14 10]]


Para estadistica nos interesa también ver datos de una distribución normal.  Observamos como numpy nos ofrece de manera fácil crear estos datos.  En las siguientes líneas crearemos una distribución normal de media 0 y desviación estándar de 0.2 dimensiones de 5x4

In [31]:
x = np.random.normal(0, 0.2, size=(5, 4))
print(x)

[[ 0.08846473 -0.13773479 -0.14987119 -0.32433505]
 [ 0.08160481  0.29076401  0.03316572 -0.28696241]
 [ 0.3308278   0.25142471  0.01340984  0.07136112]
 [ 0.20116679 -0.08745003 -0.45508145 -0.2407112 ]
 [ 0.12985675  0.19024207  0.34619383  0.01409947]]


In [32]:
mn = np.mean(x)
st = np.std(x)
ma = np.max(x)
mi = np.min(x)
su = np.sum(x)
print(f'Media: {mn}\nDesv Est: {st}\nMáximo: {ma}\nMínimo: {mi}\nTotal: {su}')

Media: 0.018021775969849628
Desv Est: 0.2221261200603286
Máximo: 0.3461938286347238
Mínimo: -0.45508145468038763
Total: 0.3604355193969926


#### Accediendo. borrando e insertando elementos en los arreglos

No nos hemos dado cuenta pero una propiedad de los arreglos de numpy es que son mutables, es decir podemos cambiar su contenido en cualquier momento y sin ningun inconveniente.

También podemos hacer slicing de los arreglos para separar los datos.  En redes neuronales esto es util cuando hacemos el train y test set ademas de la validación cruzada para validar el training.

También podemos verlos elemento por elemento o por conjunto de ellos.  Veamos el ejemplo.

In [33]:
x = np.array([1,2,3,4,5,6])
print('1st:',x[0])
print('3rd:',x[2])
print('last',x[-1])

1st: 1
3rd: 3
last 6


Indices positivos nos ayudan a acceder los elementos desde el inicio del arreglo y los elementos desde el final al inicio con índices negativos, note que el indice positivo comienza desde 0.  Veamos ahora ejemplos de arreglos multidimensionales.

In [34]:
x = np.array(np.arange(20).reshape(10,2))
print(x)
print()
print('Elemento en 0,0:', x[0,0])
print('Elemento en 4,1:', x[4,1])
print('Elemento en 9,1:', x[9,1])

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]]

Elemento en 0,0: 0
Elemento en 4,1: 9
Elemento en 9,1: 19


Para modificar elementos en un arreglo simplemente hacemos una asignación al valor del elemento a reemplazar.

In [35]:
x[9,1] = -2
print(x)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 -2]]


Para borrar elementos simplemente podemos utilizar la función delete().  Cabe aclarar aqui que podemos decidir que borrar, borrar por filas o columnas.  Normalmente verá en algunas funciones, no solo en numpy el argumento *axis* 
- axis=0 equivale a fila
- axis=1 equivale a columna

Veamos un ejemplo de la posibilidad de borrar una sección del arreglo

In [36]:
y = np.delete(x, 0, axis=0)
print(x)
print()
print(y)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 -2]]

[[ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 -2]]


In [37]:
y = np.delete(x, 0, axis=1)
print(x)
print()
print(y)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 -2]]

[[ 1]
 [ 3]
 [ 5]
 [ 7]
 [ 9]
 [11]
 [13]
 [15]
 [17]
 [-2]]


Podemos también agregar uno o mas elementos a un arreglo, veamos como podemos hacer esto con un arreglo unidimensional

In [38]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [39]:
x = np.append(x, -999)
x

array([   0,    1,    2,    3,    4,    5,    6,    7,    8,    9, -999])

Digamos ahora que queremos agregar más información que un solo dato.  También podemos hacerlo, observar el ejemplo siguiente.

In [40]:
x = np.array(np.arange(10))
x = np.append(x, [20, 30])
print(x)

[ 0  1  2  3  4  5  6  7  8  9 20 30]


Para arreglos multidimensionales opera igualmente y también podemos agregar datos por filas y por columnas, simplemente no la hemos utilizado en el ejemplo anterior debido a que siempre hay una columna para un vector.

In [41]:
x = np.array(np.linspace(2, 10, 20)).reshape((5,4))
y = np.append(x,[[1,2,3,4]],axis=0)
print(x,'\n\n',y)

[[ 2.          2.42105263  2.84210526  3.26315789]
 [ 3.68421053  4.10526316  4.52631579  4.94736842]
 [ 5.36842105  5.78947368  6.21052632  6.63157895]
 [ 7.05263158  7.47368421  7.89473684  8.31578947]
 [ 8.73684211  9.15789474  9.57894737 10.        ]] 

 [[ 2.          2.42105263  2.84210526  3.26315789]
 [ 3.68421053  4.10526316  4.52631579  4.94736842]
 [ 5.36842105  5.78947368  6.21052632  6.63157895]
 [ 7.05263158  7.47368421  7.89473684  8.31578947]
 [ 8.73684211  9.15789474  9.57894737 10.        ]
 [ 1.          2.          3.          4.        ]]


In [42]:
x = np.array(np.linspace(2, 10, 20)).reshape((5,4))
y = np.append(x,[[1],[2],[3],[4],[5]],axis=1)
print(x,'\n\n',y)

[[ 2.          2.42105263  2.84210526  3.26315789]
 [ 3.68421053  4.10526316  4.52631579  4.94736842]
 [ 5.36842105  5.78947368  6.21052632  6.63157895]
 [ 7.05263158  7.47368421  7.89473684  8.31578947]
 [ 8.73684211  9.15789474  9.57894737 10.        ]] 

 [[ 2.          2.42105263  2.84210526  3.26315789  1.        ]
 [ 3.68421053  4.10526316  4.52631579  4.94736842  2.        ]
 [ 5.36842105  5.78947368  6.21052632  6.63157895  3.        ]
 [ 7.05263158  7.47368421  7.89473684  8.31578947  4.        ]
 [ 8.73684211  9.15789474  9.57894737 10.          5.        ]]


Note que para que podamos insertar en un arreglo tenemos que tener el mismo valor de filas y de columnas, dependiendo de que vamos a insertar, de lo contrario tendremos un error como el siguiente

In [43]:
x = np.array([[1,2,4],[4,5,6]])
x = np.append(x, [7,8,9,10], axis=0)

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

Veamos ahora como insertar elementos dentro de un arreglo.  Podemos insertar elementos entre el arreglo utilizando la funcion insert()

In [44]:
x = np.array([2,4,8,16])
x

array([ 2,  4,  8, 16])

In [45]:
y = np.insert(x, 1, [5,6,7,8], axis=0)
print(x)
print()
print(y)

[ 2  4  8 16]

[ 2  5  6  7  8  4  8 16]


In [46]:
x = np.reshape(x, (2,2))
y = np.insert(x, 1, [32, 64], axis=1)
print(x)
print()
print(y)

[[ 2  4]
 [ 8 16]]

[[ 2 32  4]
 [ 8 64 16]]


Para arreglos multidimensionales, las inserciones se hacemn por medio de vstack() o hstack(). Cabe recalcar que necesitamos que las partes concuerden en dimensiones.  Veamos un ejemplo.

Veamos primero stacking vertical

In [47]:
x = np.arange(10).reshape((5,2))
print(x)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [48]:
y = np.arange(4).reshape((2,2))
print(y)

[[0 1]
 [2 3]]


In [49]:
z = np.vstack((x,y))
print(z)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]
 [0 1]
 [2 3]]


Ahora veamos stacking horizontal

In [50]:
x = np.arange(10).reshape((5,2))
print(x)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [51]:
y = np.arange(5).reshape((5,-1))
print(y)

[[0]
 [1]
 [2]
 [3]
 [4]]


In [52]:
z = np.hstack((x,y))
print(z)

[[0 1 0]
 [2 3 1]
 [4 5 2]
 [6 7 3]
 [8 9 4]]


#### Division por partes de numpy arrays

Slicing funciona igual que como hemos visto en las listas.  Podemos indexar de las siguientes maneras
- [inicio:fin]
- [inicio:]
- [:fin]

Si observó modemos hacer slicing sin especificar algunos indices, fin o inicio respectivamente.

También podemos hacer sub slicing de arreglos multidimensionales, veamos los siguientes ejemplos.

In [53]:
x = np.arange(1,21).reshape((5,4))
print(x)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]
 [17 18 19 20]]


In [54]:
y = x[1:3,1:4]
print(y)

[[ 6  7  8]
 [10 11 12]]


OK, es un poco confuso a veces verlo.  Para entenderlo mejor tenemos que hacer simple uso de esta manera, el primer indice siempre esta incluido y el último índice esta excluido, por consiguiente:
- 1:3 (incluye el primer índice y excluye el último, es decir solo realizamos la selección de la fila 1 hasta fila 2 (ó 3-1).
- 1:4 (incluye el primer índice y excluye el último, es decir solo realizamos la selección de la col 1 hasta col 3 (ó 4-1). 

Veamos más ejemplos.

In [55]:
print(x)
print()
print(x[1: , :3])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]
 [17 18 19 20]]

[[ 5  6  7]
 [ 9 10 11]
 [13 14 15]
 [17 18 19]]


El siguiente solamente toma todos los valores de fila pero solo la columna 2

In [56]:
y = x[:,2]
print(y, y.shape)

[ 3  7 11 15 19] (5,)


Ahora todos los valores de la columna pero solo la tercera fila

In [57]:
y = x[3, :]
print(y, y.shape)

[13 14 15 16] (4,)


¿Nota que solamente esta retornanod vectores rango 1 tanto para filas como para columnas? 

Si queremos seleccionar efectivamente que retorne en modo que deseamos, entonces debemos ser un poco más específicos

In [58]:
y = x[3:4, :]
print(y, y.shape)

[[13 14 15 16]] (1, 4)


In [59]:
y = x[:,2:3]
print(y, y.shape)

[[ 3]
 [ 7]
 [11]
 [15]
 [19]] (5, 1)


Un error común de principiantes es cuando se manipulan los arreglos pensar que son una copia del arreglo original, esto incurre en errores de codigo a futuro.

Veamos un ejemplo de lo que acabamos de mencionar.  Vamos a crear un arreglo, copiar un pedazo a una variable y cambiar el valor para luego imprimir ambas y ver su resultado.

In [60]:
x = np.linspace(0,10,20).reshape((5,4))
print(x)

[[ 0.          0.52631579  1.05263158  1.57894737]
 [ 2.10526316  2.63157895  3.15789474  3.68421053]
 [ 4.21052632  4.73684211  5.26315789  5.78947368]
 [ 6.31578947  6.84210526  7.36842105  7.89473684]
 [ 8.42105263  8.94736842  9.47368421 10.        ]]


In [61]:
y = x[1:, 2:]
print(y)

[[ 3.15789474  3.68421053]
 [ 5.26315789  5.78947368]
 [ 7.36842105  7.89473684]
 [ 9.47368421 10.        ]]


In [62]:
y[-1, -1] = -1
y

array([[ 3.15789474,  3.68421053],
       [ 5.26315789,  5.78947368],
       [ 7.36842105,  7.89473684],
       [ 9.47368421, -1.        ]])

In [63]:
x

array([[ 0.        ,  0.52631579,  1.05263158,  1.57894737],
       [ 2.10526316,  2.63157895,  3.15789474,  3.68421053],
       [ 4.21052632,  4.73684211,  5.26315789,  5.78947368],
       [ 6.31578947,  6.84210526,  7.36842105,  7.89473684],
       [ 8.42105263,  8.94736842,  9.47368421, -1.        ]])

Si deseamos crear una copia que no interfiera con los elementos del arreglo anterior entonces debemos utilizar la función copy().  Veamos el ejemplo

In [64]:
x = np.array(np.arange(20)).reshape(5,4)
print(x)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]


In [65]:
y = x[1:, 1:].copy()
y[-1,-1] = -2
y

array([[ 5,  6,  7],
       [ 9, 10, 11],
       [13, 14, 15],
       [17, 18, -2]])

In [66]:
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

Numpy también nos ofrece manera de tener acceso a otros elementos por medio de funciones, por ejemplo digamos que queremos la diagonal, tenemos que.

In [67]:
np.diag(x)

array([ 0,  5, 10, 15])

Si queremos los elementos en diagonal sobre ella tenemos que especificar k = 1, por defecto k = 0

In [68]:
np.diag(x, k=1)

array([ 1,  6, 11])

Ahora si queremos los elementos en diagonal debajo de ella k = -1

In [69]:
np.diag(x, k=-1)

array([ 4,  9, 14, 19])

Digamos también que queremos solamente los valores únicos de un arreglo, numpy nos ofrece una función llamada unique() que hace el trabajo.

In [70]:
x = np.array([[1,2,3],[4,5,6],[7,8,9],[1,3,9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 3, 9]])

In [71]:
print(np.unique(x))

[1 2 3 4 5 6 7 8 9]


#### Indexamiento booleano

Hemos visto como hacer indexamiento, pero hay muchas situaciones donde no sabemos los elementos, por ejemplo cuando tenemos un arreglo inmenso de datos, digamos 1M, y de esos datos solamente queremos seleccionar aquellos que cumplan alguna condicion.

Podemos utilizar argumentos booleanos en vez de indices.

In [72]:
x = np.arange(30).reshape((6,5))
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [73]:
x[x>14]

array([15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [74]:
x[x<=5]

array([0, 1, 2, 3, 4, 5])

In [75]:
print(x[(x<10) & (x>4)])

[5 6 7 8 9]


Tambien nos permite hacer operaciones, por ejemplo reasignación de un rango de valores

In [76]:
x[x>24] = -4
print(x)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [-4 -4 -4 -4 -4]]


Tambien podemos ver arreglos para observar su intersección, diferencia y unión.

In [77]:
x = np.arange(1,6)
y = np.array([6,7,8,2,4])

print(np.intersect1d(x,y))
print(np.setdiff1d(x,y))
print(np.union1d(x,y))

[2 4]
[1 3 5]
[1 2 3 4 5 6 7 8]


Ahora veamos diferentes maneras de orderar arreglos de 1-D o N-D.  Vamos a ver la marea de ordenar un arreglo sin reemplazar el arreglo original.

In [78]:
x = np.random.randint(2, 15, size=(5,))
x

array([14,  7,  4, 12,  6])

In [79]:
print(np.sort(x))
print(x)

[ 4  6  7 12 14]
[14  7  4 12  6]


Ahora veamos la manera de alterar y solamente conseguir los números únicos

In [80]:
print(np.sort(np.unique(x)))
print(x)

[ 4  6  7 12 14]
[14  7  4 12  6]


Si ahora queremos alterar el areglo original y que este quede modificado debemos hacerlo sobre el arreglo, es decir, como vemos en el ejemplo.

In [81]:
x = np.random.randint(2,10, size=(1,10))
print(x)
x.sort()
print(x)

[[6 5 9 6 2 5 6 3 4 4]]
[[2 3 4 4 5 5 6 6 6 9]]


La función sort() también la podemos utilizar para ordenar arreglos multidimensionales, vemos el ejemplo inferior para ordenar arreglos.

In [82]:
x = np.random.randint(0,20, size=(5,4))
print(x)

[[11 11  6 14]
 [15 13  6  2]
 [ 1  2  8  5]
 [ 9  7  1 10]
 [ 7  8  1 18]]


In [83]:
print(np.sort(x, axis=0))

[[ 1  2  1  2]
 [ 7  7  1  5]
 [ 9  8  6 10]
 [11 11  6 14]
 [15 13  8 18]]


In [84]:
print(np.sort(x, axis=1))

[[ 6 11 11 14]
 [ 2  6 13 15]
 [ 1  2  5  8]
 [ 1  7  9 10]
 [ 1  7  8 18]]


###  Operadores aritméticos y broadcasting

Veamos como podemos hacer operaciones aritméticas por arreglos en elementos (element-wise).

Podemos hacerlas por medio de operadores o funciones, veamos como podemos hacer sumas, restas, multiplicacioens y divisiones

In [85]:
x = np.random.randint(1, 10, size=(10,))
y = np.random.randint(49, 60, size=(10,))

print(x)
print(y)

[7 9 9 1 3 5 8 9 9 7]
[58 49 58 54 58 59 58 50 54 53]


In [86]:
print(x+y)
print(np.add(x,y))

[65 58 67 55 61 64 66 59 63 60]
[65 58 67 55 61 64 66 59 63 60]


In [87]:
print(x-y)
print(np.subtract(x,y))

[-51 -40 -49 -53 -55 -54 -50 -41 -45 -46]
[-51 -40 -49 -53 -55 -54 -50 -41 -45 -46]


In [88]:
print(x*y)
print(np.multiply(x,y))

[406 441 522  54 174 295 464 450 486 371]
[406 441 522  54 174 295 464 450 486 371]


In [89]:
print(x/y)
print(np.divide(x,y))

[0.12068966 0.18367347 0.15517241 0.01851852 0.05172414 0.08474576
 0.13793103 0.18       0.16666667 0.13207547]
[0.12068966 0.18367347 0.15517241 0.01851852 0.05172414 0.08474576
 0.13793103 0.18       0.16666667 0.13207547]


Para que lo anterior funcione los arreglos, como lo hacemos elemento por elemento deben tener la misma dimensión o ser 'broadcastables' o retransmisibles.

Podemos tambien aplicar las mismas operaciones a arreglos multidimensionales.

In [90]:
x = np.random.randint(1, 10, size=(3,4))
y = np.random.randint(3, 20, size=(3,4))

In [91]:
print(x + y)

[[18 18 17 22]
 [13 20 24 19]
 [25  8 13 24]]


In [92]:
print(x - y)

[[-14 -10   1  -8]
 [  1 -16 -14 -17]
 [ -9   2 -11  -6]]


In [93]:
print(x*y)

[[ 32  56  72 105]
 [ 42  36  95  18]
 [136  15  12 135]]


In [94]:
print(x/y)

[[0.125      0.28571429 1.125      0.46666667]
 [1.16666667 0.11111111 0.26315789 0.05555556]
 [0.47058824 1.66666667 0.08333333 0.6       ]]


Otra ventaja de numpy son sus implementaciones en funciones matemáticas y estadisticas, veamos los ejemplos

In [95]:
# tenemos el arreglo original x
x

array([[2, 4, 9, 7],
       [7, 2, 5, 1],
       [8, 5, 1, 9]])

In [96]:
print(np.exp(x))

[[7.38905610e+00 5.45981500e+01 8.10308393e+03 1.09663316e+03]
 [1.09663316e+03 7.38905610e+00 1.48413159e+02 2.71828183e+00]
 [2.98095799e+03 1.48413159e+02 2.71828183e+00 8.10308393e+03]]


In [97]:
print(np.sqrt(x))

[[1.41421356 2.         3.         2.64575131]
 [2.64575131 1.41421356 2.23606798 1.        ]
 [2.82842712 2.23606798 1.         3.        ]]


In [98]:
print(np.power(x,2))

[[ 4 16 81 49]
 [49  4 25  1]
 [64 25  1 81]]


In [99]:
print('Suma:', x.sum())
print('Suma-rows:', x.sum(axis=0))
print('Suma-cols:', x.sum(axis=1))
print('Media:', x.mean())
print('Media-rows:',x.mean(axis=0))
print('Media-cols:',x.mean(axis=1))

Suma: 60
Suma-rows: [17 11 15 17]
Suma-cols: [22 15 23]
Media: 5.0
Media-rows: [5.66666667 3.66666667 5.         5.66666667]
Media-cols: [5.5  3.75 5.75]


In [100]:
print('Stdev:', x.std())
print('Max:', x.max())
print('Min:', x.min())

Stdev: 2.886751345948129
Max: 9
Min: 1


Ahora veamos como numpy puede agregar valores de constantes sin utilizar ciclos for a arreglos unidimensionales y multidimensionales.

In [101]:
print(x)

[[2 4 9 7]
 [7 2 5 1]
 [8 5 1 9]]


In [102]:
print(x + 2.2)

[[ 4.2  6.2 11.2  9.2]
 [ 9.2  4.2  7.2  3.2]
 [10.2  7.2  3.2 11.2]]


In [103]:
print(1.2-x)

[[-0.8 -2.8 -7.8 -5.8]
 [-5.8 -0.8 -3.8  0.2]
 [-6.8 -3.8  0.2 -7.8]]


In [104]:
print(0.5*x)

[[1.  2.  4.5 3.5]
 [3.5 1.  2.5 0.5]
 [4.  2.5 0.5 4.5]]


In [105]:
print(x/4)

[[0.5  1.   2.25 1.75]
 [1.75 0.5  1.25 0.25]
 [2.   1.25 0.25 2.25]]


Ahora veamos las funciones de broadcasting o retransimsibles de numpy.  Vamos a realizar dos arreglos multidimensionales pero uno incompleto y realizar operaciones

In [106]:
x = np.random.randint(0,20, size=(5,3))
y = np.random.randint(5,15, size=(1,3))
print(x)
print()
print(y)

[[ 2 16  4]
 [14 16  8]
 [16  7  9]
 [ 9  7 15]
 [ 9 19  8]]

[[ 5 12  6]]


In [107]:
print(x+y)

[[ 7 28 10]
 [19 28 14]
 [21 19 15]
 [14 19 21]
 [14 31 14]]


Observamos que la función de retransmisibilidad o broadcasting trata de sumar el arreglo si tiene las mismas dimensiones al menos en una dirección, para el caso anterior cada fila del arreglo x fue sumada con los elementos del arreglo y

#### Intentelo ud. ahora

Crear un arreglo con las siguientes especificaciones
- 5x2x3
- numeros consecutivos de 2 a 60 (incluyendo el número 60)
- pasos de 2

In [108]:
x = np.array(np.arange(2,61,2).reshape(5,2,3))
print(x)

[[[ 2  4  6]
  [ 8 10 12]]

 [[14 16 18]
  [20 22 24]]

 [[26 28 30]
  [32 34 36]]

 [[38 40 42]
  [44 46 48]]

 [[50 52 54]
  [56 58 60]]]


Respuesta esperada:
```
[[[ 2  4  6]
  [ 8 10 12]]

 [[14 16 18]
  [20 22 24]]

 [[26 28 30]
  [32 34 36]]

 [[38 40 42]
  [44 46 48]]

 [[50 52 54]
  [56 58 60]]]
```

- Crear un arreglo 5x6
- El arreglo debe contener enteros consecutivos desde 1 hasta 30 (incluyendo el 30)
- Luego seleccione solo los numeros impares en el arreglo
- NOTA:  No se acepta la creación del arreglo como *np.array([1,2,3...30])*

In [110]:
a = np.array(np.arange(1,31).reshape(5,6))
a

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30]])

Respuesta esperada:
```
array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30]])
```

In [111]:
a = a[a%2 == 1]
print(a)

[ 1  3  5  7  9 11 13 15 17 19 21 23 25 27 29]


Respuesta esperada:
```
[ 1  3  5  7  9 11 13 15 17 19 21 23 25 27 29]
```

Utilice broadcasting en numpy para crear un arreglo como se especifica:
- Arreglo 4x8
- col1 = llena de 1s, col2 = llena de 2s ... col8 = llena de 8s

In [117]:
c = np.zeros((4,8))
d = np.arange(1,9)
print(c)
print()
print(d)

[[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]

[1 2 3 4 5 6 7 8]


Nota de ayuda:
```
[[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]

[1 2 3 4 5 6 7 8]
```

In [118]:
c+d

array([[1., 2., 3., 4., 5., 6., 7., 8.],
       [1., 2., 3., 4., 5., 6., 7., 8.],
       [1., 2., 3., 4., 5., 6., 7., 8.],
       [1., 2., 3., 4., 5., 6., 7., 8.]])

Respuesta esperada:
```
array([[1., 2., 3., 4., 5., 6., 7., 8.],
       [1., 2., 3., 4., 5., 6., 7., 8.],
       [1., 2., 3., 4., 5., 6., 7., 8.],
       [1., 2., 3., 4., 5., 6., 7., 8.]])
```

# Pasar al notebook *Prerequisitos Numpy - Parte 2* para realizar el proyecto luego de completar los problemas de esta seccion