![Numpy](https://numpy.org/doc/stable/_static/numpylogo_dark.svg)
# Introducción a NumPy

## ¿Qué es NumPy?

### Palabras Clave

* Paquete
* Matriz multidimensional
* Operaciones rápidas entre matrices
* Objeto ndarray
* Datos homogéneos
* Ejecución de código compilado.

Si nos dirigimos a la documentación oficial de [Numpy](https://numpy.org/doc/stable/user/whatisnumpy.html), podemos decir, en resumen, que es una herramienta útil cuando deseamos realizar operaciones con matrices. Su potencial se muestra al trabajar con matrices de tamaños cada vez más grandes, ya que ejecuta código compilado para realizar las operaciones sin la necesidad de salir de Python.

Es importante destacar que los objetos ndarray deben ser de **datos homogéneos**, mencionándolo para evitar errores de ejecución.

## Diferencias entre el úso de NumPy y las secuencias estándar de Python

|Numpy|Python|
|:--------------------------------------:|:-------------------------:|
|Tamaño fijo en el momento de su creación|Pueden crecer dinámicamente|
|Los elementos deben ser homogéneos|Permite multples datos|
|Facilidad en operaciones matemáticas avanzadas y procesamiento de grandes conjuntos de datos|Requiere implementar las operaciones además de la reducción en el rendimiento|
|Compatibilidad con la mayoría del software científico/matemático basado en Python| **Saber cómo usar los tipos de secuencia integrados de Python es insuficiente**|

> Cambiar el tamaño de un *ndarray* creará una nueva matrz y eliminará el original.

> Es posible crear una matriz de objetos en NumPy permitiendo una mayor flexibilidad. Con la consecuencia de perder rendimiento y la capacidad de aprovechar las implementaciones más eficientes que ofrece el paquete.

> NumPy nos ofrece lo mejor de ambos mundos. Se ejecuta a velocidades cercanas a C, pero con la simplicidad del código que esperamos de algo basado en Python.

## ¿Por qué utilizar NumPy?

Pienso que la principal razón para utilizar NumPy es por su escalabilidad a paquetes basados en Python. Si deseamos utilizar Python como lenguaje de programación enfocado en aplicaciones cientificas de cualquier área NumPy es el estandar, tal es así que en la misma documentación refieren que la mayoria de las paqueterias que se implementan para Python requieren como base un arreglo de Numpy. El punto anterior es el fundamento de la necesidad de aprender a utilizarlo, como segundo punto esta el tiempo. Si nos enfocamos en el análisis de datos, encontraremos con frecuencia conjuntos de datos que superan el millon de datos, por ello es necesario tener una forma eficiente de preparar, procesar y analizar nuestros datos sin tener que sacrificar la facilidad en la codificación, esto es algo que logra el paquete Numpy gracias a las siguientes caracteristicas:

* Vectorización: Permite realizar operaciones en arreglos completos en lugar de iterar sobre elementos individualmente.
* Operaciones en C optimizadas: La implementación de las operaciones que realiza se implementan en C, provocando que se manipulen los datos a un nivel de abstracción más bajo.
* Radiodifusión: Permite realizar operaciones entre arreglos de diferentes formas y tamaños de manera automática y eficiente.

## ¿Cómo empezar a utilizar NumPy?

Lo primero que se debe hacer para utilizar NumPy es instalar la libreria utilizando:

```
pip install numpy

```
Después es necesario importar la biblioteca en nuestro script

In [2]:
# Importación de numpy con alias
import numpy as np

Si la estructura básica para utilizar NumPy es un array entonces debemos saber como crearlos o inicializarlos, antes de poder pensar en operarlos.

### Atributos básicos de la clase ndarray

- `ndarray.ndim`: El número de ejes (dimensiones) del array
- `ndarray.shape`: Es una tupla de números enteros que indica la longitud  de cada dimensión.*(filas, columnas)*
- `ndarray.size`: El número total de elementos del array, es igual a multiplicar los elementos de la tupla devuelta por `shape`.
- `ndarray.dtype`: Devuelve una descripción del tipo de elementos que existen dentro del array. NumPy proporciona algunos tipos adicionales, por ejemplo, `numpy.int32`, `numpy.int16` o `numpy.float64`.

### Creación de un array
#### Desde una lista de Python

In [3]:
lista_01 = [1, 2, 56, 878, 14, 45, 19, 21]
a = np.array(lista_01)
print(a)

[  1   2  56 878  14  45  19  21]


In [4]:
# Longitud de cada dimensión del array a
a.shape

(8,)

> **Nota** Observa que si el array es de una sola dimensión el atributo shape devuelve la tupla *(columnas,)* esta es una convención y lo que indica es que tenemos un array de *1 fila y 8 columnas*.

In [5]:
lista_02 = [[10,155,45],[21,178,75]]
b = np.array(lista_02)
b

array([[ 10, 155,  45],
       [ 21, 178,  75]])

In [6]:
# Longitud de cada dimensión del array b
b.shape

(2, 3)

Existen situaciones en donde necesitamos inicializar un array con valores que desconocemos y NumPy ofrece funciones para crear matrices con *contenido de marcador de posición inicial*.

#### Utilizando una función de NumPy

##### Matriz con ceros

In [7]:
c = np.zeros((5,3)) # Matriz de 5x3 rellena de zeros
c

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [8]:
# Número de dimensiones de la matriz
c.ndim

2

In [9]:
# Longitud de cada dimensión
c.shape

(5, 3)

In [10]:
# Número de elementos de la matriz
c.size

15

In [11]:
# Tipo de matriz
c.dtype

dtype('float64')

c es una matriz con:
- Dos ejes (**axis**) es decir, dos dimensiones (**rank**).
- Longitud de 5 filas y 3 columnas (**shape**)
- Un tamaño (**size**) de 15.
- Tipo de elemento `float64`

##### Matriz con unos

In [12]:
# Array cuyos valores son todos 1
np.ones((2,3,4))

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

##### Matriz cuyos valores son todos el valor especificado como segundo parámetro

In [13]:
np.full((2, 3, 4), 7)

array([[[7, 7, 7, 7],
        [7, 7, 7, 7],
        [7, 7, 7, 7]],

       [[7, 7, 7, 7],
        [7, 7, 7, 7],
        [7, 7, 7, 7]]])

##### Matriz generada con empty

El resultado no es predecible, rellena las dimensiones que se especifican con valores existentes en la memoria al momento de ejecución

In [14]:
np.empty((3,7,4))

array([[[4.04738577e-320, 2.68771711e-321, 0.00000000e+000,
         1.29578874e-316],
        [4.94065646e-324, 1.29578953e-316, 1.29581087e-316,
         1.18575755e-322],
        [6.90535094e-310, 4.24399158e-314, 5.81021200e-321,
         4.94065646e-324],
        [4.24399158e-314, 1.03753786e-322, 1.29578992e-316,
         6.90535220e-310],
        [6.90518650e-310, 4.94065646e-324, 1.69759663e-313,
         4.94065646e-324],
        [1.29579546e-316, 1.29580494e-316, 1.48219694e-323,
         1.29579664e-316],
        [1.29579783e-316, 1.29580020e-316, 1.29580257e-316,
         9.88131292e-323]],

       [[6.90535223e-310, 0.00000000e+000, 4.94065646e-324,
         2.12199579e-313],
        [2.33419537e-313, 9.88131292e-323, 6.90535223e-310,
         0.00000000e+000],
        [5.58788245e-321, 2.54639495e-313, 2.75859453e-313,
         9.88131292e-323],
        [6.90535223e-310, 0.00000000e+000, 5.43472210e-323,
         2.97079411e-313],
        [3.18299369e-313, 9.88131292e-323

#### Creación de array utilizando una función basada en rangos

##### Utilizando secuencias (arrange)
Cuando nos referimos a secuencias es definir un mínimo, un máximo y un salto entre cada valor sin incluir el valor máximo. `[mínimo, máximo)`

In [15]:
# (minimo, maximo, salto)
np.arange(1,10.5,0.5)

array([ 1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,  6. ,
        6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

##### Creando separaciones uniformes (linspace)
El siguiente código crea un array desde el 0.1 hasta el 1 con 10 elementos separados uniformemente.

A diferencia de la función anterior, con esta, podemos determinar el número de elementos que queremos que tenga nuestro array de forma más intuitiva.

In [16]:
# (minimo,maximo, número de elementos del array)
np.linspace(0.1, 1, 10)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

#### Creación de array con valores aleatorios (random.rand)
Esta función devuelve valores aleatorios entre 0 y 1

In [17]:
np.random.rand(7,3)

array([[0.40598157, 0.46636988, 0.60150068],
       [0.03519548, 0.56939431, 0.67345869],
       [0.5454765 , 0.00933144, 0.77409705],
       [0.34933439, 0.38547127, 0.02075209],
       [0.26474894, 0.90618155, 0.3065594 ],
       [0.10491997, 0.79849115, 0.49645384],
       [0.97725774, 0.01153117, 0.4005656 ]])

#### Creación de array con valores aleatorios siguiendo una distribución normal (random.randn)


In [18]:
np.random.randn(7,4)

array([[-0.17013928, -0.49498843, -0.57324645,  1.58282946],
       [-0.17737326, -0.25849309,  0.81136201, -1.59014049],
       [ 0.47351659,  0.54365422, -0.50792601, -0.96019609],
       [ 0.43376776, -0.77662487,  1.93316991,  0.41792809],
       [-0.7730475 , -0.32693573,  1.52707058,  0.75849869],
       [ 0.92945264,  1.72457509, -0.36554104, -1.70778733],
       [-0.74900009, -0.1483305 ,  0.9011418 ,  0.27631615]])

### Acceso a los elementos de un array
Definimos un array

#### Unidimensional

In [19]:
array_01 = np.random.rand(6)
print(array_01)
print(f'Dimensiones {array_01.ndim}')
print(f'Longitud de sus dimensiones {array_01.shape}')
print(f'Tipo de datos {array_01.dtype}')

[0.22769738 0.56350163 0.61086378 0.99357609 0.10221443 0.94275882]
Dimensiones 1
Longitud de sus dimensiones (6,)
Tipo de datos float64


In [20]:
# Acceso al elemento 1
array_01[1]

0.5635016251387636

In [21]:
# Acceso a un conjunto de elementos, desde el 2 al 5
array_01[2:5]

array([0.61086378, 0.99357609, 0.10221443])

In [22]:
# Acceso a elementos salteados definiendo el salto
array_01[0::3] # Muestra los elementos 0 y 4

array([0.22769738, 0.99357609])

#### Multidimensional

In [23]:
array_02 = np.array([[2,4,6,8],[10,12,14,16]])
print(array_02)
print(f'Dimensiones {array_02.ndim}')
print(f'Longitud de sus dimensiones {array_02.shape}')
print(f'Tipo de datos {array_02.dtype}')

[[ 2  4  6  8]
 [10 12 14 16]]
Dimensiones 2
Longitud de sus dimensiones (2, 4)
Tipo de datos int64


In [24]:
# Acceso al elemento 5 del array
array_02[1,0]

10

In [25]:
# Acceso a la primera fila del array
array_02[0, :]

array([2, 4, 6, 8])

In [26]:
# Acceso a la segunda fila del array
array_02[1, :]

array([10, 12, 14, 16])

In [27]:
# Acceso al segundo elemento de las dos primeras filas del array
array_02[:, 1]

array([ 4, 12])

### Modificar un Array

Para poder trabajar con NumPy, es necesario saber cómo podemos modificar un array. Un array es mutable, lo que significa que podemos modificarlo en tiempo de ejecución. Para entender cómo modificar un array, mostraremos una serie de ejemplos. En síntesis, cuando hablamos de modificar un array, nos referimos a cambiar sus dimensiones o su contenido, con todos los pormenores que estas acciones puedan tener.

In [28]:
# Array unidimensional
array_uni = np.arange(24) # Crea un vector desde 0 hasta 24
array_uni

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

#### Modificar contenido y dimensiones

Anteriormente, al hablar de las dimensiones de un array, vimos que hacíamos referencia al atributo 'shape'. Para modificar las dimensiones de un array, tenemos que aplicar este método sobre el vector que queremos modificar y asignarle el nuevo valor que deseamos.

In [29]:
array_uni.shape = (6, 4)
array_uni

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

La ejecución anterior devuelve un array que apunta a los mismos datos de array_uni original. Para ver cuál es la naturaleza de asignar un array a uno nuevo y los efectos que tiene modificar cualquiera de los arrays, veamos los siguientes ejemplos:
1. Generamos un array a partir de otro previamente creado pero con sus dimensiones modificadas. El método `reshape` nos permite modificar las dimensiones de un array directamente, sin necesidad de realizar una asignación como sucedia con `shape`.

In [30]:
array_multi = array_uni.reshape(4,6)
array_multi

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

2. Modificamos el nuevo array `array_uni_02`

In [31]:
array_multi[3,4] = 978
array_multi

array([[  0,   1,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11],
       [ 12,  13,  14,  15,  16,  17],
       [ 18,  19,  20,  21, 978,  23]])

Si hemos modificado `array_uni_02` y este fue resultado de una asignación a un array previo pero con dimensiones nuevas, podriamos esperar que `array_uni` no sufriera modificaciones. Vamos a verificarlo:
3. Verificamos contenido del array original `array_uni`

In [32]:
array_uni

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11],
       [ 12,  13,  14,  15],
       [ 16,  17,  18,  19],
       [ 20,  21, 978,  23]])

Como se observa, modificar un array tendrá como consecuencia modificar todas las dependencias que hayan surgido de él.Para terminar con esta sección veremos como podemos 'desenvolver el array de dos dimensiones para devolverlo a su estado original.

In [33]:
array_multi.ravel()

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21, 978,  23])

### Broadcasting

El broadcasting es la propiedad que aplica NumPy para realizar operaciones entre vectores que no tienen exactamente la misma forma. Veamos como funciona.
1. Creamos arrays con diferentes tamaños

In [34]:
v_01 = np.arange(1,11)
print(v_01)
print(f'Longitud de dimensiones v_01 = {v_01.shape}')

[ 1  2  3  4  5  6  7  8  9 10]
Longitud de dimensiones v_01 = (10,)


In [35]:
v_02 = np.array([2])
print(v_02)
print(f'Longitud de dimensiones v_02 = {v_02.shape}')

[2]
Longitud de dimensiones v_02 = (1,)


2. Intentamos realizar una operación básica entre ellos

In [36]:
v_01 + v_02

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

Lo que hace el `broadcasting` es tomar el elemento de `v_02` y sumarlo con cada uno de los elementos de `v_01`. Si intentamos realizar una operación parecida pero con un vector de longitud de dimensión diferente a 1, obtendremos lo siguiente:

In [37]:
v_03 = np.random.rand(3)
print(v_03)
print(f'Longitud de dimensiones v_03 = {v_03.shape}')

[0.37572851 0.94486263 0.45778163]
Longitud de dimensiones v_03 = (3,)


In [38]:
v_01 + v_03

ValueError: operands could not be broadcast together with shapes (10,) (3,) 

> No podemos aplicar broadcasting con un array unidimensional con `shape` diferente a 1

La última nota se podría haber deducido, si tenemos un array de dos elementos y queremos aplicar `broadcasting` con él resultaría en una ambiguedad pues no es claro que elemento debería tomar para realizar la operación solicitada

#### Broadcasting multidimensional
Veamos como se aplica el `broadcasting`para arrays de diferentes dimensiones

In [39]:
a_multi = np.arange(12).reshape(4,3)
print(a_multi)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [40]:
b_multi = np.linspace(0,5,3)
print(b_multi)

[0.  2.5 5. ]


In [41]:
a_multi + b_multi

array([[ 0. ,  3.5,  7. ],
       [ 3. ,  6.5, 10. ],
       [ 6. ,  9.5, 13. ],
       [ 9. , 12.5, 16. ]])

### Funciones Estadísticas
NumPy provee de diferentes funciones estadísticas de forma nativa que permite trabajar eficientemente en el análisis de datos para realizar analísis exploratorio de nuestros datos.

In [47]:
rnd_array = np.random.rand(25)
print(rnd_array)

[0.89527988 0.95153367 0.22271011 0.34400177 0.73726431 0.10626075
 0.81006813 0.25151976 0.03655377 0.6912381  0.96500832 0.12307108
 0.01149884 0.66363741 0.86611998 0.44105341 0.14484221 0.42412831
 0.45663429 0.5247944  0.99470981 0.86043949 0.62276755 0.36382284
 0.78228312]


##### Media del array

In [48]:
rnd_array.mean()

0.5316496531582351

In [49]:
rnd_array.sum()

13.291241328955877

In [50]:
dir(rnd_array)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',

### Universal functiones
Son funciones que realizan operaciones básicas sobre un array

In [51]:
np.square(rnd_array)

array([8.01526060e-01, 9.05416321e-01, 4.95997920e-02, 1.18337214e-01,
       5.43558656e-01, 1.12913480e-02, 6.56210380e-01, 6.32621919e-02,
       1.33617823e-03, 4.77810116e-01, 9.31241067e-01, 1.51464900e-02,
       1.32223240e-04, 4.40414616e-01, 7.50163825e-01, 1.94528112e-01,
       2.09792671e-02, 1.79884823e-01, 2.08514876e-01, 2.75409165e-01,
       9.89447607e-01, 7.40356120e-01, 3.87839422e-01, 1.32367057e-01,
       6.11966885e-01])

In [54]:
np.sqrt(rnd_array)

array([0.9461923 , 0.97546587, 0.47192172, 0.58651664, 0.85864096,
       0.32597662, 0.90003785, 0.50151746, 0.19119041, 0.8314073 ,
       0.98234837, 0.35081488, 0.10723263, 0.81463944, 0.93065567,
       0.66411852, 0.38058142, 0.65125134, 0.67574721, 0.72442695,
       0.9973514 , 0.92759878, 0.78915623, 0.60317729, 0.88446771])

In [55]:
np.exp(rnd_array)

array([2.44802084, 2.58967832, 1.24945831, 1.41058113, 2.09020951,
       1.11211183, 2.24806115, 1.28597832, 1.03723008, 1.99618549,
       2.62480951, 1.1309648 , 1.0115652 , 1.94184279, 2.37766754,
       1.55434372, 1.15585718, 1.52825767, 1.57875141, 1.69011133,
       2.70393957, 2.36419951, 1.86407984, 1.43881929, 2.18645853])

In [56]:
np.log(rnd_array)

array([-0.1106189 , -0.04968021, -1.50188432, -1.06710849, -0.30480883,
       -2.24185926, -0.21063692, -1.38023371, -3.3089709 , -0.36927094,
       -0.03561855, -2.09499323, -4.46550943, -0.41001934, -0.14373183,
       -0.8185893 , -1.9321103 , -0.85771925, -0.78387245, -0.64474871,
       -0.00530423, -0.15031198, -0.47358194, -1.01108824, -0.24553855])