# Introducción a NumPy

#### **NumPy es el paquete fundamental para la computación científica en Python.**

NumPy es una biblioteca de Python que proporciona un objeto de matriz n-dimensional (`ndarray`) de tipos de datos homogéneos, varios objetos derivados y una variedad de rutinas para operaciones rápidas en matrices.

### ¿Cuál es la diferencia entre las matrices NumPy (`ndarray`) y las secuencias estándar de Python?

Las diferencias más importantes entre las matrices NumPy (`ndarray`) y las secuencias estándar de Python son las siguientes:
* Las matrices NumPy tienen un tamaño fijo en la creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Cambiar el tamaño de un `ndarray` creará una nueva matriz y eliminará la original.
* Se requiere que todos los elementos en una matriz NumPy sean del mismo tipo de datos y, por lo tanto, tendrán el mismo tamaño en la memoria. La excepción: uno puede tener matrices de objetos (Python, incluido NumPy), lo que permite matrices de elementos de diferentes tamaños.
* Las matrices NumPy facilitan operaciones matemáticas avanzadas y de otro tipo en grandes cantidades de datos. Por lo general, tales operaciones se ejecutan de manera más eficiente y con menos código de lo que es posible con las secuencias integradas de Python.
* Una plétora creciente de paquetes científicos y matemáticos basados en Python está utilizando matrices NumPy; aunque estos suelen admitir la entrada de secuencia de Python, convierten dicha entrada en matrices NumPy antes del procesamiento y, a menudo, generan matrices NumPy. En otras palabras, para usar de manera eficiente gran parte (quizás incluso la mayoría) del software científico/matemático actual basado en Python, no basta con saber cómo usar los tipos de secuencia integrados de Python; también es necesario saber cómo usar las matrices NumPy.

### ¿Por qué NumPy es rápido?

La vectorización y el broadcasting. 

La vectorización del código describe la ausencia de bucles explícitos, indexación, etc., en el código a pesar de que  "detrás de escena" la ejecució corre en código C optimizado y precompilado. El código vectorizado tiene muchas ventajas, entre las que se encuentran:
* Es más conciso y más fácil de leer. 
* Requiere de menos líneas de código, lo que generalmente significa menos errores. 
* Se parece más a la notación matemática estándar (lo que facilita, por lo general, codificar correctamente las construcciones matemáticas). 
* Da como resultado código más "pythonic". Sin la vectorización, nuestro código estaría plagado de bucles difíciles de leer e ineficientes.

El broadcasting es el término utilizado para describir el comportamiento implícito de las operaciones elemento por elemento. En términos generales, en NumPy todas las operaciones se comportan de esta manera. 

## Importación y otros comandos útiles

Por convención, NumPy se importa con el alias *np*.

In [1]:
import numpy as np

In [2]:
# Imprime versión de numpy
np.__version__

'1.21.2'

In [3]:
# Imprime documentación bult-in
np?

[0;31mType:[0m        module
[0;31mString form:[0m <module 'numpy' from '/home/saguilar/anaconda3/envs/test/lib/python3.8/site-packages/numpy/__init__.py'>
[0;31mFile:[0m        ~/anaconda3/envs/test/lib/python3.8/site-packages/numpy/__init__.py
[0;31mDocstring:[0m  
NumPy
=====

Provides
  1. An array object of arbitrary homogeneous items
  2. Fast mathematical operations over arrays
  3. Linear Algebra, Fourier Transforms, Random Number Generation

How to use the documentation
----------------------------
Documentation is available in two forms: docstrings provided
with the code, and a loose standing reference guide, available from
`the NumPy homepage <https://www.scipy.org>`_.

We recommend exploring the docstrings using
`IPython <https://ipython.org>`_, an advanced Python shell with
TAB-completion and introspection capabilities.  See below for further
instructions.

The docstring examples assume that `numpy` has been imported as `np`::

  >>> import numpy as np

Code snippe

## Las variables son más que solo su valor

Una de las ventajas mayormente reconocidas de Python es que es un lenguaje de programación que se tipifica dinámicamente. Mientras que un lenguaje de programación de tipo estático como C o Java requiere que cada variable se declare explícitamente, un lenguaje de programación de tipo dinámico como Python omite esta especificación.

In [4]:
# Código en Python
x = 4
x = "four"

Comprender cómo funciona esto es esencial cuando se busca aprender a analizar datos de manera eficiente y efectiva con Python. La flexibilidad que otorga un lenguaje de programación de tipo dinámico sugiere que las variables de Python son más que solo su valor pues también contienen información adicional sobre el tipo de valor.

La implementación estándar de Python está escrita en C. Esto significa que cada objeto de Python es una estructura C, que contiene no solo su valor, sino también otra información. Por ejemplo, cuando definimos un número entero en Python, como `x = 10000`, `x` no es solo un número entero per se, y en realidad, es un puntero a una estructura C compuesta, que contiene varios valores como el recuento de referencias que ayuda a Python a manejar silenciosamente la asignación y desasignación de memoria, el tipo de la variable, el tamaño de la variable y el valor entero real que esperamos que represente la variable de Python.

La información adicional en la estructura de datos de Python es lo que permite que Python se codifique de manera tan libre. Sin embargo, la información adicional en los tipos de Python tiene un costo, que se vuelve especialmente evidente en las estructuras que combinan muchos de estos objetos.

El contenedor multielemento mutable estándar en Python es la lista.

In [5]:
# Declara una lista de enteros
l1 = list(range(10))
l1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [6]:
# Devuelve tipo de la lista
type(l1)

list

In [7]:
# Devuelve tipo del primer elemento de la lista
type(l1[0])

int

In [8]:
# Declara una lista de strings 
l2 = [str(i) for i in l1]
l2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [9]:
# Devuelve tipo de la lista
type(l2)

list

In [10]:
# Devuelve tipo del primer elemento de la lista
type(l2[0])

str

In [11]:
# Declara una lista heterogénea
l3 = [42, 42.0, "42", True]
l3

[42, 42.0, '42', True]

In [12]:
l3 = [42, 42.0, "42", True]
l3

[42, 42.0, '42', True]

In [13]:
# Devuelve tipo de todos los elementos de la lista
[type(i) for i in l3]

[int, float, str, bool]

Cada elemento de una lista debe contener su propia información pues cada uno es un objeto de Python completo. En el caso de que todas las variables sean del mismo tipo, mucha de esta información es redundante. Por ello, resulta mucho más eficiente almacenar datos en un arreglo de tipo fijo, es decir, un `ndarray`.

## Creando un `ndarray`

### A partir de una lista

`np.array` permite crear arreglos a partir de una lista.

In [14]:
# Declara un arreglo de enteros
np.array([2, 3, 5, 7, 11])

array([ 2,  3,  5,  7, 11])

Si los tipos de un arreglo no coinciden, NumPy ejecutará un upcast si es posible.

In [15]:
# Declara un arreglo heterogéneo
np.array([2, 3.1416, 5, 7, 11])

array([ 2.    ,  3.1416,  5.    ,  7.    , 11.    ])

Si queremos establecer explícitamente el tipo de datos del arreglo resultante, podemos usar el parámetro `dtype`.

In [16]:
# Declara un arreglo de flotantes
np.array([2, 3, 5, 7, 11], dtype='float32')

array([ 2.,  3.,  5.,  7., 11.], dtype=float32)

A diferencia de las listas de Python, los arreglos NumPy pueden ser explícitamente multidimensionales, es decir, las listas internas se tratan como filas del arreglo bidimensional resultante.

In [17]:
# Declara un arreglo multidimensional
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

### Desde 0

Especialmente para arreglos más grandes, es más eficiente crear arreglos desde cero utilizando rutinas integradas en NumPy.

In [18]:
# Declara un arreglo de ceros de tamaño 42
np.zeros(42, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [19]:
# Declara un arreglo de unos de tipo flotante de tamaño 6x12
np.ones((6, 12), dtype=float)

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

In [20]:
# Declara un arreglo con el valor 42 de tamaño 2x10
np.full((2, 10), 42)

array([[42, 42, 42, 42, 42, 42, 42, 42, 42, 42],
       [42, 42, 42, 42, 42, 42, 42, 42, 42, 42]])

In [21]:
# Declara un arreglo con una secuencia linear
# empezando en 0, terminando antes de 30, de 5 en 5
np.arange(0, 30, 5)

array([ 0,  5, 10, 15, 20, 25])

In [22]:
# Declara un arreglo de 5 valores espaciados uniformemente entre 0 y 10
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [23]:
# Delcara un arreglo de tamaño 4x4 de valores aleatorios entre 0 y 1
np.random.random((4, 4))

array([[0.83588048, 0.62401222, 0.01032467, 0.38537482],
       [0.63609487, 0.63970212, 0.63243106, 0.3952477 ],
       [0.96928038, 0.97552859, 0.52315469, 0.00509039],
       [0.12916186, 0.23089843, 0.67100352, 0.49196287]])

In [24]:
# Delcara un arreglo de tamaño 4x4 de valores aleatorios normalmente distribuidos con media 0 y desviación estándar de 1
np.random.normal(0, 1, (4, 4))

array([[ 0.1199908 ,  0.11093789, -0.27801268,  0.07528608],
       [ 0.04773846,  0.22005434, -0.38213035, -0.00779056],
       [-0.55293537,  0.99130297, -0.66552011,  0.7894412 ],
       [ 1.05536516, -0.33979676, -0.63728637, -1.18380619]])

In [25]:
# Delcara un arreglo de tamaño 4x4 de valores aleatorios en el intervalo [0, 10)
np.random.randint(0, 10, (4, 4))

array([[5, 9, 9, 3],
       [5, 8, 5, 7],
       [2, 9, 8, 1],
       [7, 6, 2, 1]])

In [26]:
# Declara una matriz identidad de tamaño 4x4
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [27]:
# Declara un arreglo no inicializada de tres enteros
# Los valores serán lo que ya exista en esa ubicación de memoria
np.empty(3)

array([4.68640875e-310, 0.00000000e+000, 1.58101007e-322])

## Atributos de un `ndarray`

Cada arreglo tiene atributos:
* `ndim`: el número de dimensiones
* `shape`: el tamaño de cada dimensión
* `size`: el tamaño total del arreglo
* `dtype`: el tipo del arreglo
* `itemsize`: el tamaño en bytes de los elementos del arreglo
* `nbytes`: el tamaño en bytes de todos los elementos del arreglo

In [28]:
?


IPython -- An enhanced Interactive Python

IPython offers a fully compatible replacement for the standard Python
interpreter, with convenient shell features, special commands, command
history mechanism and output results caching.

At your system command line, type 'ipython -h' to see the command line
options available. This document only describes interactive features.

GETTING HELP
------------

Within IPython you have various way to access help:

  ?         -> Introduction and overview of IPython's features (this screen).
  object?   -> Details about 'object'.
  object??  -> More detailed, verbose information about 'object'.
  %quickref -> Quick reference of all IPython specific syntax and magics.
  help      -> Access Python's own help system.

If you are in terminal IPython you can quit this screen by pressing `q`.


MAIN FEATURES
-------------

* Access to the standard Python help with object docstrings and the Python
  manuals. Simply type 'help' (no quotes) to invoke it.

* Ma

In [29]:
# Declara semilla para reproducibilidad
np.random.seed(0) 

In [30]:
# Declara arreglo unidimencional
x1 = np.random.randint(10, size=6) 

# Declara arreglo bidimencional
x2 = np.random.randint(10, size=(3, 4))

# Declara arreglo tridimencional
x3 = np.random.randint(10, size=(3, 4, 5)) 
x3

array([[[8, 1, 5, 9, 8],
        [9, 4, 3, 0, 3],
        [5, 0, 2, 3, 8],
        [1, 3, 3, 3, 7]],

       [[0, 1, 9, 9, 0],
        [4, 7, 3, 2, 7],
        [2, 0, 0, 4, 5],
        [5, 6, 8, 4, 1]],

       [[4, 9, 8, 1, 1],
        [7, 9, 9, 3, 6],
        [7, 2, 0, 3, 5],
        [9, 4, 4, 6, 4]]])

In [31]:
##### Imprime atributos del arreglo
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
print("x3 dtype: ", x3.dtype)
print("x3 itemsize: ", x3.itemsize)
print("x3 nbytes: ", x3.nbytes)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
x3 dtype:  int64
x3 itemsize:  8
x3 nbytes:  480


## Indexación del `ndarray`

En un arreglo unidimensional, se puede acceder al valor $i^{th}$ (contando desde cero) especificando el índice deseado entre corchetes, al igual que con las listas.

In [32]:
# Imprime arreglo
x1

array([5, 0, 3, 3, 7, 9])

In [33]:
# Imprime valor en la posición 1 del arreglo
x1[0]

5

In [34]:
# Imprime valor en la posición 4 del arreglo
x1[5]

9

Para indexar desde el final del arreglo, se pueden usar índices negativos.

In [35]:
# Imprime valor en la posición n-1, donde n es el tamaño del arreglo
x1[-1]

9

In [36]:
# Imprime valor en la posición n-2, donde n es el tamaño del arreglo
x1[-2]

7

En un arreglo multidimensional, se puede acceder a los elementos mediante una tupla de índices separados por comas.

In [37]:
# Imprime arreglo
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [38]:
# Imprime valor en la posición 1 (fila), 1 (columna) del arreglo
x2[0, 0]

3

In [39]:
# Imprime valor en la posición 3 (fila), 3 (columna) del arreglo
x2[2, 2]

7

In [40]:
# Imprime valor en la posición 2 (fila), n-1 (columna), donde n es el tamaño del arreglo
x2[1, -1]

8

Los valores también se pueden modificar usando cualquiera de las notaciones anteriores.

In [41]:
# Modifica el valor en la posición 1, 1 del arreglo
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

A diferencia de las listas, los arreglos NumPy tienen un tipo fijo. Esto significa, por ejemplo, que si se intenta modificar un valor flotante en una matriz de enteros, el valor se truncará silenciosamente. 

In [42]:
# Modifica el valor en la posición 1, 1 del arreglo por un punto flotante
x2[0] = 3.14159  
x2

array([[3, 3, 3, 3],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

## Slicing un `ndarray`

Así como se pueden usar corchetes para acceder a elementos individuales de un arreglo, también se pueden usar para acceder a subarreglos con la notación de división, marcada por el carácter de dos puntos (`:`).

La sintaxis de slicing de NumPy sigue la de la lista: `x[inicio:final:step]`, y si alguno de los parámetros no se especifica, los valores predeterminados son `start=0`, `stop=tamaño de la dimensión`, `step=1`.

In [43]:
# Declara un arreglo de una secuencia linear de 10 enteros
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
# Imprime primeros cinco elementos del arreglo
x[:5]

array([0, 1, 2, 3, 4])

In [45]:
# Imprime cinco elementos del arreglo después del índice 5
x[5:] 

array([5, 6, 7, 8, 9])

In [46]:
# Imprime elementos del arreglo entre el índice 4 y 7
x[4:7]

array([4, 5, 6])

In [47]:
# Imprime cada dos elementos del arreglo
x[::2] 

array([0, 2, 4, 6, 8])

In [48]:
# Imprime cada dos elementos del arreglo empezando en el índice 1
x[1::2]

array([1, 3, 5, 7, 9])

In [49]:
# Imprime todos los elementos del arreglo al revés
x[::-1] 

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [50]:
# Imprime todos los elementos del arreglo al revés empezando en el índice 5
x[5::-2] 

array([5, 3, 1])

Los arreglos multidimensionales funcionan de la misma manera, con varios sectores separados por comas.

In [51]:
# Imprime arreglo
x2

array([[3, 3, 3, 3],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [52]:
# Imprime 2 fias y 3 columnas del arreglo 
x2[:2, :3] 

array([[3, 3, 3],
       [7, 6, 8]])

In [53]:
# Imprime 3 fias y cada 2 columnas del arreglo
x2[:3, ::2] 

array([[3, 3],
       [7, 8],
       [1, 7]])

In [54]:
# Imprime todos los elementos del arreglo al revés
x2[::-1, ::-1]

array([[7, 7, 6, 1],
       [8, 8, 6, 7],
       [3, 3, 3, 3]])

Una rutina comúnmente necesaria es acceder a filas o columnas individuales de un arreglo multidimensional. Esto se puede hacer combinando la indexación y el slicing, utilizando un segmento vacío marcado por el carácter de dos puntos (`:`).

In [55]:
# Imprime primer fila del arreglo
print(x2[0, :])

[3 3 3 3]


In [56]:
# Imprime primer columna del arreglo
print(x2[:, 0])

[3 7 1]


Los slices de un arreglo devuelven vistas en lugar de copias de los datos de la matriz. Este es un aspecto en el que los arreglos de NumPy difieren de las listas: en las listas, los cortes serán copias. 

In [57]:
# Imprime arreglo
print(x2)

[[3 3 3 3]
 [7 6 8 8]
 [1 6 7 7]]


In [58]:
# Extrae dos primeras filas y dos primeras columnas del arreglo
x2_sub = x2[:2, :2]
x2_sub

array([[3, 3],
       [7, 6]])

In [59]:
# Modifica el valor en la posición 1, 1 del arreglo 
x2_sub[0, 0] = 100
x2_sub

array([[100,   3],
       [  7,   6]])

In [60]:
# Imprime arreglo
x2

array([[100,   3,   3,   3],
       [  7,   6,   8,   8],
       [  1,   6,   7,   7]])

Se requiere de `copy()` para hacer una copia de un arreglo y modificarlo de forma independiente al original.

In [61]:
# Extrae dos primeras filas y dos primeras columnas del arreglo
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

array([[100,   3],
       [  7,   6]])

In [62]:
# Modifica el valor en la posición 1, 1 del arreglo 
x2_sub_copy[0, 0] = 42
x2_sub_copy

array([[42,  3],
       [ 7,  6]])

In [63]:
# Imprime arreglo
x2

array([[100,   3,   3,   3],
       [  7,   6,   8,   8],
       [  1,   6,   7,   7]])

## Ejercicios

1. Declara una lista (y1) de strings con los primeros 1000 múltiplos de 42. 
2. Declara un arreglo de NumPy (y2) de strings con los primeros 1000 múltiplos de 42. 
3. ¿Cuál es el 360vo múltiplo de 42?
4. Declara un arreglo de NumPy de 50X50 (y3) en el que todos los valores sean 2.0.
5. Declara un arreglo de NumPy de 10x10x5 (y4) de enteros aleatorios entre 4 y 8 (ambos inclusivos).
6. Imprime los atributos de y4.