## NumPy:

Esta es una introducción a la biblioteca NumPy (Numerical Python) de Python. Se trata de una colección de módulos de código abierto que tiene aplicaciones en casi todos los campos de las ciencias y de la ingeniería. Es el estándar para trabajar con datos numéricos en Python. Muchas otras bibliotecas y módulos de Python como Pandas, SciPy, Matplotlib, scikit-learn, scikit-image usan numpy.

Esta biblioteca permite trabajar cómodamente con matrices multidimensionales por medio del tipo ndarray, un objeto n-dimensional homogéneo (es decir, con todas sus entradas del mismo tipo), y con métodos para operar eficientemente sobre él. numpy puede usarse para una amplia variedad de operaciones matemáticas sobre matrices. Le agrega a Python estructuras de datos muy potentes sobre las que puedés hacer cálculos y operar matemáticamente con eficiencia y a un alto nivel.

Cuando quieras usar numpy en Python, primero tenés que importarlo:

                            Instalar e importar numpy


In [4]:
import numpy as np

Acortamos 
**numpy** a **np** para ahorrar tiempo y mantener el código estandarizado. Todes escriben **np**.

Si no lo tenés instalado (te dará un error al importarlo) podés instalarlo escribiendo alguno de los siguientes comandos, según corresponda:

#### ¿Cuál es la diferencia entre listas y arreglos?

numpy ofrece varias formas muy eficientes de crear vectores y manipular datos numéricos. Mientras que una lista de Python puede contener diferentes tipos de datos en su interior, los elementos de un vector numpy serán todos del mismo tipo. De esta forma numpy garantiza un muy alto rendimiento en las operaicones matemáticas.

Además, los arreglos están pensados para tener un tamaño fijo, mientras que las listas están diseñadas para agregar y sacar elementos. Son estructuras de datos similares desde un punto de vista superficial, pero muy diferentes en cuanto a las posibilidades que brindan.

Las operaciones matemáticas sobre vectores de numpy son más rápidas que sobre listas. Además los vectores ocupan menos memoria que las listas análogas. En cambio, modificar el tamaño de una lista es algo muy sencillo mientras que el de un vector es costoso. Y combinar diferentes tipos de datos es sencillo en las listas pero imposible en los vectores de numpy.

#### Arreglos n-dimensionales

Los vectores (unidimensionales) y matrices (bidimensiones) se generalizan a arreglos n-dimensionales. Esta estructura de datos es la central de la biblioteca numpy. Un arreglo (ndarray) tiene una grilla de valores (datos crudos) junto con información sobre cómo ubicarlos y cómo interpretarlos. Los elementos de esta grilla pueden ser indexados de diversas maneras y, como ya dijimos, son todos del mismo tipo. Este tipo es frecuentemente abreviado como dtype (por data type).

Un arreglo puede ser indexado por tuplas de enteros no negativos, por variables booleanas, por otro arreglo o por enteros. El rango (rank) de un arreglo es su número de dimensiones. Su forma (shape) es una tupla de enteros que dice su tamaño en cada dimensión.

Una forma de inicializar un arreglo de numpy es mediante una lista de números. Esto nos da un vector (arreglo de dimensión uno). Usando listas anidadas, podemos definir arreglos de más altas dimensiones.

Por ejemplo:

In [5]:
a = np.array([1, 2, 3, 4, 5, 6])

o:

In [6]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

Podemos acceder a los elementos de un arreglo usando corchetes. Acordate que los índices comienzan a contar en 0. Esto significa que si querés acceder al primer elemento, vas a acceder al elemento “0”.

In [7]:
print(a[0]) # si tiene múltiples dimensiones, esto me da una "rebanada" de una dimensión menos


[1 2 3 4]


In [8]:

print(a[2]) # otra rebanada


[ 9 10 11 12]


In [9]:
print(a[2][3]) # accedo al cuarto elemento del tercer vector de a


12


In [10]:
print(a[2,3]) # o, equivalentemente, accedo al elemento en la tercera fila y cuarta columna de a

12


### Más información sobre arreglos

Ocasionalmente vas a ver que alguien se refiere a un arreglo como un “ndarray” que es una forma breve de decir arreglo n-dimensional. Un arreglo n-dimensional es simplemente un arreglo con n dimensiones. Recordemos que cuando son unidimensionales los llamamos vectores y si son bidimensionales los llamamos matrices.

### ¿Qué atributos tiene un arreglo?

Un arreglo es usualmente un contenedor de tamaño fijo de elementos del mismo tipo. Su forma (shape) es una tupla de enteros no negativos que especifica el tamaño del arreglo en cada dimensión. Un arreglo tiene tantas dimensiones como coordenadas en la tupla.

En numpy, las dimensiones se llaman axes (ejes). Esto significa que si tenés una arreglo bidimensional que se ve así:

In [1]:
[[0., 0., 0.],
 [1., 1., 1.]]

[[0.0, 0.0, 0.0], [1.0, 1.0, 1.0]]

el arreglo tendrá dos ejes. El primer eje tiene tamaño dos, el segundo tamaño tres (sí, se cuentan primero filas, luego columnas).

De la misma forma que los otros objetos contenedores de Python, los elementos de un arreglo pueden ser accedidos y modificados usando índices y rebanadas.

### Crear un arreglo básico

Para crear un arreglo de numpy podés usar la función np.array(). Lo único que necesitás es pasarle una lista. Si querés, podés especificar el tipo de datos que querés que tenga.

In [4]:
import numpy as np
a = np.array([1, 2, 3])

Vamos a representar la creación con este gráfico:

In [7]:
print(a)

[1 2 3]


Además de crear una arreglo a partir de una secuencia de elementos, podés crear un arreglo lleno de 0’s:

In [9]:
zeros=np.zeros(5)
print(zeros)

[0. 0. 0. 0. 0.]


O uno lleno de 1’s:

In [11]:
unos=np.ones(8)
print(unos)

[1. 1. 1. 1. 1. 1. 1. 1.]


¡O incluso uno no inicializado! La función empty crea un arreglo cuyo contenido inicial depende del estado de la memoria. Lo bueno de usar empty en lugar de zeros (o ones) es la velocidad - al no inicilizar los valores no perdemos tiempo. ¡Pero asegurate de ponerle valores con sentido luego!

In [23]:
# Crea un arreglo con dos elementos.
emty=np.empty(3) # puede variar
print(emty)
emty=np.empty(4)
print(emty)

[ 1.26037735e-311  0.00000000e+000 -4.94065646e-324]
[4.01181304e-321 6.97302424e+252 5.48477661e+241 2.64521041e+185]


También podés crear vectores a partir de un rango de valores:

In [32]:
r=np.arange(2, 9, 2) # o np.arange(2, 10, 2)
print(r)


[2 4 6 8]


El límite derecho nunca está en la lista.

También podés usar np.linspace() para crear un vector especificando el primer número, el último número, y la cantidad de elementos:

In [33]:
np.linspace(0, 10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

## arange() y linspace()
Generá un vector que tenga los números impares entre el 1 y el 19 inclusive usando arange(). Repetí el ejercicio usando linspace(). ¿Qué diferencia hay en el resultado?

Especificar el tipo de datos

Si no lo especificás, el tipo de datos (por omisión) de los arreglos es el punto flotante (np.float64). Sin embargo, podés explicitar otro tipo de datos usando la palabra clave dtype.

In [35]:
np.ones(2, dtype=np.int64)

array([1, 1], dtype=int64)

En estos dos casos el 64 de los tipos de datos se refiere a la cantidad de bits usados para representar el número en el sistema binario: 64 bits.

## Agregar, borrar y ordenar elementos

Ordenar un vector es sencillo usando np.sort(). Por ejemplo, si comenzás con este vector:

In [36]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])
np.sort(arr)

array([1, 2, 3, 4, 5, 6, 7, 8])

Fijate que el vector arr quedó desordenado. sort simplemente devolvió una copia ordenada de los datos pero no modificó el original.

Otra operación usual es la concatenación. Si empezás con estos dos vectores:

In [37]:
a = np.array([1, 2, 3, 4])

b = np.array([5, 6, 7, 8])

los podés concatenar usado np.concatenate().

In [38]:
np.concatenate((a, b))

array([1, 2, 3, 4, 5, 6, 7, 8])

Un ejemplo un poco más complejo es el siguiente:

In [41]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6]])

Los podés concatenar usando:

In [43]:
np.concatenate((x, y), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

#### Conocer el tamaño, dimensiones y forma de un arreglo
#

ndarray.ndim te dice la cantidad de ejes (o dimensiones) del arreglo.

ndarray.shape te va a dar una tupla de enteros que indican la cantidad de elementos en cada eje. Si tenés una matriz con 2 filas y 3 columnas de va a dar (2, 3).

ndarray.size te dice la cantidad de elementos (cantidad de números) de tu arreglo. Es el producto de la tupla shape. En el ejemplo del renglón anterior, el size es 6.

Por ejemplo, si creás este arreglo de tres dimensiones:

In [44]:
array_ejemplo = np.array([[[0, 1, 2, 3],
                            [4, 5, 6, 7]],

                          [[0, 1, 2, 3],
                           [4, 5, 6, 7]],

                          [[0 ,1 ,2, 3],
                           [4, 5, 6, 7]]])

Vas a tener:

In [45]:
array_ejemplo.ndim # cantidad de dimensiones

3

In [46]:
array_ejemplo.shape # cantidad de elementos en cada eje 

(3, 2, 4)

In [47]:
array_ejemplo.size # total de elementos 3*2*4

24

### Cambiar la forma de un arreglo

Usando arr.reshape() le podés dar una nueva forma a tu arreglo sin cambiar los datos. Solo tené en cuenta que antes y después del reshape el arreglo tiene que tener la misma cantidad de elementos. Por ejemplo, si comenzás con un arreglo con 12 elementos, tendrás que asegurarte que el nuevo arreglo siga teniendo 12 elementos.

In [48]:
a = np.arange(6)
print(a)

[0 1 2 3 4 5]


Podés usar reshape() para cambiarle la forma y que en lugar de ser un vector de 6 elementos, sea una matriz de 3 filas y dos columnas:

In [49]:
b = a.reshape(3, 2)

In [50]:
print(b)

[[0 1]
 [2 3]
 [4 5]]


Agregar un nuevo eje a un arreglo

A veces pasa que tenemos un vector con n elementos y necesitamos pensarlo como una matriz de una fila y n columnas o de n filas y una columna. Podés usar np.newaxis para agregarle dimensiones a un vector existente.

Usando np.newaxis una vez podés incrementar la dimensión de tu arreglo en uno. Por ejemplo podés pasar de un vector a una matriz o de una matriz a un arreglo tridimensional, etc.

Por ejemplo, si comenzás con este vector:

In [51]:
a = np.array([1, 2, 3, 4, 5, 6])
a.shape

(6,)

Podés usar np.newaxis para agregarle una dimensión y convertirlo en un vector fila:

In [52]:
vec_fila = a[np.newaxis, :]

In [53]:
vec_fila.shape

(1, 6)

O, para convertirlo en un vector columna, podés unsertar un eje en la segunda dimensión:

In [55]:
vec_col = a[:, np.newaxis]
vec_col.shape

(6, 1)

### Índices y rebanadas

Podés indexar y rebanar arreglos de numpy como hicimos con las listas.

Para obtener elementos de un arreglo, lo más sencillo es usar los índices para seleccionar los que queremos conservar.

In [56]:
data = np.array([1, 2, 3])

In [57]:
data[1]

2

Otra operación muy útil es seleccionar los elementos que cumplen cierta condición. Por ejemplo, si comenzás con un arreglo así:

In [58]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

Podés imprimir todos los valores menores que cinco.

In [59]:
print(a[a < 5])

[1 2 3 4]


También podés seleccionar, por ejemplo, aquellos elementos mayores o iguales que 5 y usar el resultado para indexar el arreglo.

In [60]:
five_up = (a >= 5)
print(a[five_up])

[ 5  6  7  8  9 10 11 12]


Es interesante que five_up da un arreglo de valores booleanos. True si satisface la condición y False si no la satisface.

Podés seleccionar los elementos pares:

In [61]:
pares = a[a%2==0]
print(pares)

[ 2  4  6  8 10 12]


Usando los operadores lógicos & y | podés combinar dos o más condiciones.

Ya sea para seleccionar elementos directamente:

In [62]:
c = a[(a > 2) & (a < 11)]
print(c)

[ 3  4  5  6  7  8  9 10]


o para definir una nueva variable booleana:

In [63]:
five_up = (a > 5) | (a == 5)
print(five_up)

[[False False False False]
 [ True  True  True  True]
 [ True  True  True  True]]


Finalmente, podés usar np.nonzero() para obtener las coordenadas de ciertos elementos de un arreglo.

Si empezamos con este arreglo:

In [64]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

Podés usar np.nonzero() para imprimir los índices de los elementos que son, digamos, menores que 5:

In [65]:
b = np.nonzero(a < 5)
print(b)

(array([0, 0, 0, 0], dtype=int64), array([0, 1, 2, 3], dtype=int64))


En este ejemplo, la respuesta es una tupla de arreglos: uno por cada dimensión. El primer arreglo representa las filas de los elementos que satisfacen la condición y el segundo sus columnas.

Si querés generar la lista de coordenadas donde se encuentran estos elementos, podés zipear los arreglos, convertir el resultado en una lista e imprimirla:

In [67]:
lista_de_coordenadas = list(zip(b[0], b[1]))

In [68]:
for coord in lista_de_coordenadas:
    print(coord)


(0, 0)
(0, 1)
(0, 2)
(0, 3)


Podés usar np.nonzero() para imprimir o seleccionar los elementos del arreglo que son menores que 5:

In [69]:
print(a[b])

[1 2 3 4]


Si la condición que ponés no la satisface ningún elemento del arreglo entonces el arreglo de índices que obtenés con np.nonzero() será vacío. Por ejemplo:

In [72]:
no_hay = np.nonzero(a == 42)
print(no_hay)


(array([], dtype=int64), array([], dtype=int64))


#### Crear arreglos usando datos existentes

Es sencillo crear un nuevo arreglo usando una sección de otro arreglo.

Suponete que tenés este:

In [73]:
a = np.array([1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Podés crear otro arreglo a partir de una sección de a, simplemente especificando qué parte querés.

In [75]:
arr1 = a[3:8]
arr1

array([4, 5, 6, 7, 8])

Es importante saber que este método genera una vista del arreglo original y no una verdadera copia. Si modificás un elemento de la vista, ¡también se modificará en el original!

In [76]:
arr1[0] = 44
print(a)

[ 1  2  3 44  5  6  7  8  9 10]


El concepto de vista es importante para entender lo que está pasando. Las operaciones más frecuentes devuelven vistas y no copias. Esto ahorra memoria y es más veloz, pero si no lo sabés puede traerte problemas.

Veamos este ejemplo:

In [78]:
 a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

Ahora creamos b1 a partir de una rebanada de a y modificamos su primer elemento. ¡Esto va a modificar el elemento correspondiente de a también!