# Introducción a NumPy

#### **NumPy es el paquete fundamental para la computación científica en Python.**

NumPy es una biblioteca de Python que proporciona un objeto de matriz n-dimensional (`ndarray`) de tipos de datos homogéneos, varios objetos derivados y una variedad de rutinas para operaciones rápidas en matrices.

### ¿Cuál es la diferencia entre las matrices NumPy (`ndarray`) y las secuencias estándar de Python?

Las diferencias más importantes entre las matrices NumPy (`ndarray`) y las secuencias estándar de Python son las siguientes:
* Las matrices NumPy tienen un tamaño fijo en la creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Cambiar el tamaño de un `ndarray` creará una nueva matriz y eliminará la original.
* Se requiere que todos los elementos en una matriz NumPy sean del mismo tipo de datos y, por lo tanto, tendrán el mismo tamaño en la memoria. La excepción: uno puede tener matrices de objetos (Python, incluido NumPy), lo que permite matrices de elementos de diferentes tamaños.
* Las matrices NumPy facilitan operaciones matemáticas avanzadas y de otro tipo en grandes cantidades de datos. Por lo general, tales operaciones se ejecutan de manera más eficiente y con menos código de lo que es posible con las secuencias integradas de Python.
* Una plétora creciente de paquetes científicos y matemáticos basados en Python está utilizando matrices NumPy; aunque estos suelen admitir la entrada de secuencia de Python, convierten dicha entrada en matrices NumPy antes del procesamiento y, a menudo, generan matrices NumPy. En otras palabras, para usar de manera eficiente gran parte (quizás incluso la mayoría) del software científico/matemático actual basado en Python, no basta con saber cómo usar los tipos de secuencia integrados de Python; también es necesario saber cómo usar las matrices NumPy.

### ¿Por qué NumPy es rápido?

La vectorización y el broadcasting. 

La vectorización del código describe la ausencia de bucles explícitos, indexación, etc., en el código a pesar de que  "detrás de escena" la ejecució corre en código C optimizado y precompilado. El código vectorizado tiene muchas ventajas, entre las que se encuentran:
* Es más conciso y más fácil de leer. 
* Requiere de menos líneas de código, lo que generalmente significa menos errores. 
* Se parece más a la notación matemática estándar (lo que facilita, por lo general, codificar correctamente las construcciones matemáticas). 
* Da como resultado código más "pythonic". Sin la vectorización, nuestro código estaría plagado de bucles difíciles de leer e ineficientes.

El broadcasting es el término utilizado para describir el comportamiento implícito de las operaciones elemento por elemento. En términos generales, en NumPy todas las operaciones se comportan de esta manera. 

## Importación y otros comandos útiles

Por convención, NumPy se importa con el alias *np*.

In [1]:
import numpy as np

In [2]:
# Imprime versión de numpy

In [3]:
# Imprime documentación bult-in

## Las variables son más que solo su valor

Una de las ventajas mayormente reconocidas de Python es que es un lenguaje de programación que se tipifica dinámicamente. Mientras que un lenguaje de programación de tipo estático como C o Java requiere que cada variable se declare explícitamente, un lenguaje de programación de tipo dinámico como Python omite esta especificación.

In [4]:
# Código en Python

Comprender cómo funciona esto es esencial cuando se busca aprender a analizar datos de manera eficiente y efectiva con Python. La flexibilidad que otorga un lenguaje de programación de tipo dinámico sugiere que las variables de Python son más que solo su valor pues también contienen información adicional sobre el tipo de valor.

La implementación estándar de Python está escrita en C. Esto significa que cada objeto de Python es una estructura C, que contiene no solo su valor, sino también otra información. Por ejemplo, cuando definimos un número entero en Python, como `x = 10000`, `x` no es solo un número entero per se, y en realidad, es un puntero a una estructura C compuesta, que contiene varios valores como el recuento de referencias que ayuda a Python a manejar silenciosamente la asignación y desasignación de memoria, el tipo de la variable, el tamaño de la variable y el valor entero real que esperamos que represente la variable de Python.

La información adicional en la estructura de datos de Python es lo que permite que Python se codifique de manera tan libre. Sin embargo, la información adicional en los tipos de Python tiene un costo, que se vuelve especialmente evidente en las estructuras que combinan muchos de estos objetos.

El contenedor multielemento mutable estándar en Python es la lista.

In [5]:
# Declara una lista de enteros

In [6]:
# Devuelve tipo de la lista

In [7]:
# Devuelve tipo del primer elemento de la lista

In [8]:
# Declara una lista de strings 

In [9]:
# Devuelve tipo de la lista

In [10]:
# Devuelve tipo del primer elemento de la lista

In [11]:
# Declara una lista heterogénea

In [12]:
# Devuelve tipo de todos los elementos de la lista

Cada elemento de una lista debe contener su propia información pues cada uno es un objeto de Python completo. En el caso de que todas las variables sean del mismo tipo, mucha de esta información es redundante. Por ello, resulta mucho más eficiente almacenar datos en un arreglo de tipo fijo, es decir, un `ndarray`.

## Creando un `ndarray`

### A partir de una lista

`np.array` permite crear arreglos a partir de una lista.

In [13]:
# Declara un arreglo de enteros
np.array([2, 3, 5, 7, 11])

array([ 2,  3,  5,  7, 11])

Si los tipos de un arreglo no coinciden, NumPy ejecutará un upcast si es posible.

In [14]:
# Declara un arreglo heterogéneo
np.array([2, 3.1416, 5, 7, 11])

array([ 2.    ,  3.1416,  5.    ,  7.    , 11.    ])

Si queremos establecer explícitamente el tipo de datos del arreglo resultante, podemos usar el parámetro `dtype`.

In [15]:
# Declara un arreglo de flotantes

A diferencia de las listas de Python, los arreglos NumPy pueden ser explícitamente multidimensionales, es decir, las listas internas se tratan como filas del arreglo bidimensional resultante.

In [16]:
# Declara un arreglo multidimensional

### Desde 0

Especialmente para arreglos más grandes, es más eficiente crear arreglos desde cero utilizando rutinas integradas en NumPy.

In [17]:
# Declara un arreglo de ceros de tamaño 42

In [18]:
# Declara un arreglo de unos de tipo flotante de tamaño 6x12

In [19]:
# Declara un arreglo con el valor 42 de tamaño 2x10

In [20]:
# Declara un arreglo con una secuencia linear
# empezando en 0, terminando antes de 30, de 5 en 5

In [21]:
# Declara un arreglo de 5 valores espaciados uniformemente entre 0 y 10

In [22]:
# Delcara un arreglo de tamaño 4x4 de valores aleatorios entre 0 y 1

In [23]:
# Delcara un arreglo de tamaño 4x4 de valores aleatorios normalmente distribuidos con media 0 y desviación estándar de 1

In [24]:
# Delcara un arreglo de tamaño 4x4 de valores aleatorios en el intervalo [0, 10)

In [25]:
# Declara una matriz identidad de tamaño 4x4

In [26]:
# Declara un arreglo no inicializada de tres enteros
# Los valores serán lo que ya exista en esa ubicación de memoria

## Atributos de un `ndarray`

Cada arreglo tiene atributos:
* `ndim`: el número de dimensiones
* `shape`: el tamaño de cada dimensión
* `size`: el tamaño total del arreglo
* `dtype`: el tipo del arreglo
* `itemsize`: el tamaño en bytes de los elementos del arreglo
* `nbytes`: el tamaño en bytes de todos los elementos del arreglo

In [27]:
# Declara semilla para reproducibilidad

In [28]:
# Declara arreglo unidimencional

# Declara arreglo bidimencional

# Declara arreglo tridimencional

In [29]:
##### Imprime atributos del arreglo
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
print("x3 dtype: ", x3.dtype)
print("x3 itemsize: ", x3.itemsize)
print("x3 nbytes: ", x3.nbytes)

NameError: name 'x3' is not defined

## Indexación del `ndarray`

En un arreglo unidimensional, se puede acceder al valor $i^{th}$ (contando desde cero) especificando el índice deseado entre corchetes, al igual que con las listas.

In [30]:
# Imprime arreglo

In [31]:
# Imprime valor en la posición 1 del arreglo

In [32]:
# Imprime valor en la posición 4 del arreglo

Para indexar desde el final del arreglo, se pueden usar índices negativos.

In [33]:
# Imprime valor en la posición n-1, donde n es el tamaño del arreglo

In [34]:
# Imprime valor en la posición n-2, donde n es el tamaño del arreglo

En un arreglo multidimensional, se puede acceder a los elementos mediante una tupla de índices separados por comas.

In [35]:
# Imprime arreglo

In [36]:
# Imprime valor en la posición 1 (fila), 1 (columna) del arreglo

In [37]:
# Imprime valor en la posición 3 (fila), 3 (columna) del arreglo

In [38]:
# Imprime valor en la posición 2 (fila), n-1 (columna), donde n es el tamaño del arreglo

Los valores también se pueden modificar usando cualquiera de las notaciones anteriores.

In [39]:
# Modifica el valor en la posición 1, 1 del arreglo

A diferencia de las listas, los arreglos NumPy tienen un tipo fijo. Esto significa, por ejemplo, que si se intenta modificar un valor flotante en una matriz de enteros, el valor se truncará silenciosamente. 

In [40]:
# Modifica el valor en la posición 1, 1 del arreglo por un punto flotante

## Slicing un `ndarray`

Así como se pueden usar corchetes para acceder a elementos individuales de un arreglo, también se pueden usar para acceder a subarreglos con la notación de división, marcada por el carácter de dos puntos (`:`).

La sintaxis de slicing de NumPy sigue la de la lista: `x[inicio:final:step]`, y si alguno de los parámetros no se especifica, los valores predeterminados son `start=0`, `stop=tamaño de la dimensión`, `step=1`.

In [41]:
# Declara un arreglo de una secuencia linear de 10 enteros

In [42]:
# Imprime primeros cinco elementos del arreglo

In [43]:
# Imprime cinco elementos del arreglo después del índice 5

In [44]:
# Imprime elementos del arreglo entre el índice 4 y 7

In [45]:
# Imprime cada dos elementos del arreglo

In [46]:
# Imprime cada dos elementos del arreglo empezando en el índice 1

In [47]:
# Imprime todos los elementos del arreglo al revés

In [48]:
# Imprime todos los elementos del arreglo al revés empezando en el índice 5

Los arreglos multidimensionales funcionan de la misma manera, con varios sectores separados por comas.

In [49]:
# Imprime arreglo

In [50]:
# Imprime 2 fias y 3 columnas del arreglo 

In [51]:
# Imprime 3 fias y cada 2 columnas del arreglo

In [52]:
# Imprime todos los elementos del arreglo al revés

Una rutina comúnmente necesaria es acceder a filas o columnas individuales de un arreglo multidimensional. Esto se puede hacer combinando la indexación y el slicing, utilizando un segmento vacío marcado por el carácter de dos puntos (`:`).

In [53]:
# Imprime primer fila del arreglo

In [54]:
# Imprime primer columna del arreglo

Los slices de un arreglo devuelven vistas en lugar de copias de los datos de la matriz. Este es un aspecto en el que los arreglos de NumPy difieren de las listas: en las listas, los cortes serán copias. 

In [55]:
# Imprime arreglo

In [56]:
# Extrae dos primeras filas y dos primeras columnas del arreglo

In [57]:
# Modifica el valor en la posición 1, 1 del arreglo 

In [58]:
# Imprime arreglo

Se requiere de `copy()` para hacer una copia de un arreglo y modificarlo de forma independiente al original.

In [59]:
# Extrae dos primeras filas y dos primeras columnas del arreglo

In [60]:
# Modifica el valor en la posición 1, 1 del arreglo 

In [61]:
# Imprime arreglo

## Ejercicios

1. Declara una lista (y1) de strings con los primeros 1000 múltiplos de 42. 
2. Declara un arreglo de NumPy (y2) de strings con los primeros 1000 múltiplos de 42. 
3. ¿Cuál es el 360vo múltiplo de 42?
4. Declara un arreglo de NumPy de 50X50 (y3) en el que todos los valores sean 2.0.
5. Declara un arreglo de NumPy de 10x10x5 (y4) de enteros aleatorios entre 4 y 8 (ambos inclusivos).
6. Imprime los atributos de y4.