# NumPy Basics: Arrays and Vectorized Computation

**NumPy**, abreviatura de *Numerical Python*, es uno de los paquetes fundacionales de computación numérica más importantes en Python. La mayoría de los paquetes computacionales que proporcionan la funcionalidad científica utilizan el objeto NumPy’s array como la *lingua franca* para el intercambio de datos.
Estas son algunas de las cosas que encontrarás en **NumPy**:

- **ndarray**, es un array multidimensional que proporciona rápidas operaciones aritméticas orientado-a-arrays y con capacidades de transmisión flexibles.
- Funciones matemáticas para operaciones rápidas en arrays enteros de data sin tener que escribir bucles.
- Herramientas para leer / escribir array de datos en el disco y trabajar con archivos de memoria asignada.
- Álgebra lineal, generación de números aleatorios y capacidades de transformación de Fourier.
- Una API de C para conectar NumPy con bibliotecas escritas en C, C ++ o FORTRAN.

Fun fact: La computación orientada a arrays en Python tiene sus raíces en 1995, cuando Jim Hugunin creó la biblioteca **Numeric**. En los próximos 10 años, muchas comunidades de programación científica comenzaron a hacer programación de array en Python, pero el ecosistema de la biblioteca se había fragmentado a principios de los 2000. En 2005, Travis Oliphant pudo forjar el proyecto **NumPy** a partir de los entonces proyectos **Numeric** y **Numarray** para reunir a la comunidad en torno a un framework de array único.

Una de las razones por las que **NumPy** es tan importante para los cálculos numéricos es porque está diseñado para la eficiencia en grandes conjuntos de datos. Hay algunas razones para esto:
- **NumPy** internamente almacena datos en un bloque contiguo de memoria, independiente de otros objetos built-in de Python. La biblioteca de algoritmos de NumPy escrita en lenguaje C puede operar en esta memoria sin ningún tipo de verificación u otra sobrecarga. Los NumPy arrays también usan mucha menos memoria que las secuencias built-in de Python.
- Las operaciones **NumPy** realizan cálculos complejos en matrices enteras sin la necesidad de bucles **for**.

Para darte una idea de la diferencia de rendimiento, considera un NumPy array de un millón de enteros y una lista Python equivalente:

In [1]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

Y si multiplicamos la secuencia por 2:

In [21]:
%time for _ in range(10): my_arr2 = my_arr * 2

Wall time: 22.9 ms


In [50]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 674 ms


Los algoritmmos basados en Numpy arrays son de 10 a 100 (o más) veces más rápidos que sus contrapartes puras de Python y usan significativamente menos memoria.

## The NumPy ndarray: A Multidimensional Array Object

Una de las características clave de NumPy es su objeto array N-dimensional, o **ndarray**, que es un contenedor rápido y flexible para grandes conjuntos de datos en Python. Los array permiten realizar operaciones matemáticas en bloques completos de datos utilizando una sintaxis similar a las operaciones equivalentes entre elementos escalares. Para darte una idea de cómo NumPy habilita los cálculos por lotes (batch computations) con una sintaxis similar a la de los objetos built-in de valores escalares, mira el ejemplo:

In [51]:
import numpy as np
# Generamos data random
data = np.random.randn(2, 3)
data

array([[ 0.86109267, -0.25622254, -1.43199073],
       [-0.1161638 ,  0.48516534, -0.98019221]])

In [52]:
# Realizamos operaciones matemáticas con data
data * 10

array([[  8.61092672,  -2.56222541, -14.31990732],
       [ -1.16163797,   4.85165336,  -9.8019221 ]])

In [53]:
data + data

array([[ 1.72218534, -0.51244508, -2.86398146],
       [-0.23232759,  0.97033067, -1.96038442]])

Tip: utilizamos la convención de importar como **np**, también puedes usar ```from numpy import *``` para evitar escribir **np** cada vez que necesites usar una función de Numpy, pero no no es recomendable este método porque el namespace de Numpy es muy grande y algunos nombres pueden entrar en conflicto con funciones built-in de Python. (por ejemplo **min y max**)

Un **ndarray** es un contenedor genérico multidimensional para datos homogéneos; es decir, todos los elementos deben ser del mismo tipo. Cada array tiene una forma, una tupla que indica el tamaño de cada dimensión y un **dtype**, un objeto que describe el *tipo de datos* del array.

In [11]:
data.shape

(2, 3)

In [12]:
data.dtype

dtype('float64')

### Creating ndarrays

- La forma más fácil de crear un array es usar la función **array**. Esta acepta cualquier objeto tipo-secuencia (incluidas otros arrays) y produce un nuevo array NumPy que contiene la data pasada. Por ejemplo, una lista es un buen candidato para la conversión:

In [13]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

- Las secuencias anidadas, como una lista de listas de igual longitud, se convertirán en una multidimensional array.  

In [14]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

- Como data2 es una lista de listas, el NumPy array tiene 2 dimensiones inferidas de la data. Podemos confirmar viendo los atributos **ndim** y **shape**.

In [15]:
arr2.ndim

2

In [16]:
arr2.shape

(2, 4)

- A menos que se especifique explícitamente, np.array intenta inferir un buen tipo de datos para el array que crea. El tipo de datos se almacena en un  objeto metadatos **dtype** especial; por ejemplo, en los dos ejemplos anteriores tenemos:

In [17]:
arr1.dtype

dtype('float64')

In [18]:
arr2.dtype

dtype('int32')

- Además de np.array, existen otras funciones para crear nuevos arrays. Como **zeros** y **ones** que crean matrices de 0 o 1, respectivamente, con un longitud o forma dada. **empty** crea un array sin inicializar sus valores con ningún valor en particular. Para crear una matriz dimensional mayor con estos métodos, pasa una tupla al atributo forma:

In [19]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [21]:
np.empty((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

- No es seguro pensar que **empty** siempre devolverá un array de ceros, en algunos casos puede devolver valores "basura" no inicializados.

- **arange** es una versión con valor-array de la función built-in **range** de Python.

In [23]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

- Una lista corta de funciones estándar de creación de arrays. Como NumPy está centrado en la computación numérica, el tipo de datos, si no se especifica, en muchos casos será float64 (punto flotante).

|Función|Descripción|
|-|-|
|array| Convierte datos de entrada (lista, tupla, array u otro tipo de secuencia) a ndarray, deduciendo o especificando explícitamente un dtype; copia los datos de entrada por defecto
|asarray| Convierte la entrada a ndarray, pero no copia si la entrada ya es ndarray
|arange| Al igual que el built-in range pero devuelve un ndarray en lugar de una lista 
|ones |Produce un array de 1s con la forma y el dtype dados
|ones_like | Toma otro array y produce un array de 1s de la misma forma y dtype
|zeros | Produce un array de 0s con la forma y el dtype dados
|zeros_like| Toma otro array y produce un array de 0s de la misma forma y dtype
|empty| Crea nuevos arrays asignándolos a una nueva memoria, pero no los completa con ningún valor como ones y zeros
|empty_like | Toma otro array y hace lo mismo que empty pero de la misma forma y dtype
|full | Produce una matriz de la forma y dtype dados con todos los valores establecidos en el "fill value" indicado
|full_like| Toma otra matriz y produce una matriz llena de la misma forma y dtype
|eye, identity| Crea una matriz de identidad cuadrada N × N (1s en la diagonal y 0s en los demás)

### Data Types for ndarrays

- El *tipo de datos* o **dtype** es un objeto especial que contiene la información (o *metadatos*, datos sobre datos) que el ndarray necesita para interpretar una porción de memoria como un particular tipo de datos.

In [25]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype

dtype('float64')

In [26]:
arr2.dtype

dtype('int32')

- Los dtypes son una fuente de NumPy para interactuar con datos provenientes de otros sistemas. En la mayoría de los casos, proporcionan una conexión al código escrito en un lenguaje de bajo nivel como C o Fortran. Los dtypes numéricos se nombran de esta manera: un nombre de tipo, como float o int, seguido de un número que indica el número de bits por elemento. Un valor estándar de doble precisión de punto flotante (lo que se usa debajo del capó del objeto float) ocupa 8 bytes o 64 bits. Por lo tanto, este tipo se conoce en NumPy como float64.
- Puedes convertir o *cast* explícitamente un array de un dtype a otro utilizando el método ndarray **astype**. 

In [3]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [4]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

- En este ejemplo, los enteros se convirtieron en punto flotante. Si lanzo algunos números de punto flotante para que sean de dtype entero, la parte decimal se truncará:

In [7]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(arr)
arr.astype(np.int32)

[ 3.7 -1.2 -2.6  0.5 12.9 10.1]


array([ 3, -1, -2,  0, 12, 10])

- Si tiene un array de strings que representan números, puede usar **astype** para convertirlas a forma numérica:
    - Es importante tener cuidado al usar el tipo **numpy.string_**, ya que los datos de string en NumPy tienen un tamaño fijo y pueden truncar la entrada sin previo aviso. **pandas** tiene un comportamiento más intuitivo para datos no numéricos.

In [8]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

- Si la conversión fallara por alguna razón (como un string que no se puede convertir a float64), se generará un *ValueError*. En el ejemplo escribimos float en lugar de np.float64; NumPy alía los tipos de Python a sus propios tipos de datos equivalentes. Pero también puedes usar otro atributo dtype array:

In [9]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

- Hay cadenas de código de tipo abreviado que también pueden referir a un dtype.

In [12]:
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

array([2724933896,        685,    4390912,    5046351,    5177421,
          5242958,    5177426,    5374023], dtype=uint32)

- Llamar a **astype* siempre crea una nuevo array (una copia de los datos), incluso si el nuevo dtype es el mismo que el viejo dtype.

### Arithmetic with NumPy Arrays

- Los arrays son importantes porque permiten expresar operaciones por lotes en datos sin escribir ninguna bucle **for**. Los usuarios de NumPy llaman a esto *vectorización*. Cualquier operación aritmética entre arrays de igual tamaño aplica operación por-elemento:

In [14]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [15]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

- Las operaciones aritméticas con escalares propagan el argumento escalar a cada elemento de los arrays:

In [16]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

- Las comparaciones entre arrays del mismo tamaño producen arrays booleanas:

In [17]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [18]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### Basic Indexing and Slicing

- La indexación de NumPy arrays es un tópico amplio. Los arrays unidimensionales son simples; en la superficie actúan de manera similar a las listas.

In [20]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
arr[5]

5

In [22]:
arr[5:8]

array([5, 6, 7])

In [23]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

- Como se ve, si asignas un valor escalar a un segmento, como en ``arr[5: 8] = 12``, el valor se propaga (o *broadcasted* en adelante) a toda la selección. Una primera distinción importante de las listas es que los cortes del array son *vistas* del array original. Esto significa que los datos no se copian y cualquier modificación de la vista se reflejará en el array de origen. Como ejemplo creamos un corte de arr:

In [24]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

- Ahora, cuando cambio los valores en arr_slice, las mutaciones se reflejan en el array original arr:

In [25]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

## Universal Functions: Fast Element-Wise Array Functions

#### Unpacking tuples

## Array-Oriented Programming with Arrays