# NumPy: Fundamento de Python científico

<center> <img src="https://drive.google.com/uc?export=view&id=1u9BJ9wGWUiQQnPdgH8NxPxLmjn2Q2iBX" alt="image info" width="500"/> </center>




La utilización de arreglos, matrices y otros arreglos multi-dimensionales
son comunes en la computación numérica y científica. 

- Idealmente, al operar sobre los elementos de un arreglo queremos evitar ciclos explícitos que complican legibilidad y lógica del código. 
- Operaciones basadas en arreglos (vectorizadas)
- Código más conciso y ejecución más rápida



---



* En Python, NumPy es el "estándar" para trabajar con arreglos. 
* Su núcleo está escrito en C, por lo que es más eficiente en el almacenamiento de datos.
* Tiene una implementación de arreglos muy poderosa, de carácter multidimensional.
* Engloba funciones de álgebra lineal, transformada de Fourier, etc.

# Arreglos (*arrays*) de NumPy

* Los arrays de NumPY son estructuras de datos **ordenadas**, de **cantidad fija de elementos** y un tipo de **dato uniforme**.
* Son los equivalentes a las matrices y los vectores en álgebra, por lo que se les puede aplicar operaciones.
* Por su implementación, son **más eficientes** que otras estructuras de datos nativas de Python. El código, además, es más conciso.

In [None]:
#Se debe importar la biblioteca NumPy
#Por covención se usa el alias np
import numpy as np

In [None]:
#Con el signo de ? podemos consultar la documentación de NumPy
np?

## ¿Por qué se dice que es más conciso y eficiente?

In [None]:
array = np.arange(1e6) #Creamos un arreglo de 1 millón de elementos 
                       #Queremos multiplicar por 5 cada elemento del arreglo

lista = list(array) #Lo convertimos en una lista

#Medimos el tiempo de 10 loops ejecutados 5 veces

%timeit -n10 y = [val*5 for val in lista] #List comprehension, multiplicar por 5 cada valor

%timeit -n10 y = array*5 #NumPy ofrece operaciones aplicables directamente sobre el arreglo

282 ms ± 7.63 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
2.06 ms ± 113 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Creación de arreglos

Varias funciones sirven para crear arreglos de NumPy, entre ellas las siguientes:

| Función | Resultado |
| :---: | :---: |
| array() | Crea un arreglo con los datos especificados como estructuras de datos|
| empty() | Crea un arreglo vacío, con datos "basura"|
| zeros() | Crea un arreglo de ceros|
|ones() | Crea un arreglo de unos|
| full() | Crea un arreglo lleno del valor especificado|
| arange() | Crea un arreglo de valores indicando un valor inicial, un final y un step|
| linspace() | Crea un arreglo de valores indicando un valor inicial, un final y una cantidad deseada|
| logspace() |Crea un arreglo de valores con espaciado logarítmico|
| geomspace() |Crea un arreglo de valores con espaciado logarítmico en una progresión geométrica|
| random() | Crea una matriz de números entre 0.0 y 1.0|



In [None]:
arr = np.array([1,2,3]) #Array de dimensiones 1x3
print(arr,'\n')
print(np.array([[1],[2],[3]]),'\n') #Array de dimensiones 3x1
print(np.array([[1,2],[3,4]]),'\n') #Matrix 2x2
print(np.random.random([7,4]))

[1 2 3] 

[[1]
 [2]
 [3]] 

[[1 2]
 [3 4]] 

[[0.95193998 0.61784389 0.50353459 0.48612795]
 [0.26647019 0.15424596 0.30869225 0.0761973 ]
 [0.73126575 0.97329322 0.98384518 0.43953314]
 [0.54246392 0.51895266 0.55387516 0.9368823 ]
 [0.90508272 0.25711813 0.67973616 0.82457005]
 [0.82984389 0.87943603 0.41162702 0.6414092 ]
 [0.44232451 0.92263265 0.17228518 0.55932301]]


* Observe que los arreglos se encierran entre **[]**, pero que al imprimir sus valores no están separados por comas como en las listas.
* Las dimensiones siempre se indican como **filas x columnas**.

### Crear arreglos con distintos valores iniciales

In [None]:
import numpy as np

np.empty?

In [None]:
arr1 = np.empty([3,4]) # Se indican [numero de filas, numero de columnas]
print(arr1,'\n') 

arr1.fill(3)
print(arr1,'\n')

print(np.ones([5]),'\n') # Si se indica solo un número, supondrá que son columnas

print(np.full([2,2],np.inf)) # Crea una matriz rellena de "infinito"

[[1.47229349e-316 2.47032823e-322 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 8.60952352e-072 7.79173371e-091 3.60188541e+175]
 [1.28306916e+160 9.41819607e-067 3.99910963e+252 1.46030983e-319]] 

[[3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]] 

[1. 1. 1. 1. 1.] 

[[inf inf]
 [inf inf]]


### Arreglos con secuencias incrementales

Un caso de uso muy común es crear un arreglo incremental desde 0 hasta algún valor arbitrario. 

- Crearlo manualmente con np.array([0,1,2,...,N]) puede resultar inviable para arreglos muy grandes. 



In [None]:
#La función de construcción arange provee esta funcionalidad. 
np.arange?

In [None]:
np.arange(100)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [None]:
np.arange(50,100)

array([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
       67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
       84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [None]:
#El tercer argumento de arange representa el incremento deseado o step
arr2 = np.arange(0,10,1.5) #Arreglo entre 0 y 10 (sin 10), con valores cada 1.5
arr2

array([0. , 1.5, 3. , 4.5, 6. , 7.5, 9. ])

In [None]:
#El tercer argumento de linspace representa la cantidad de datos deseados en el arreglo
arr3 = np.linspace(0,10,21) #Arreglo entre 0 y 10 (con 10), con 11 valores
arr3

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

### Arreglos matriciales

Con las funciones anteriores se pueden crear matrices, pero existen también funciones para crear matrices con características específicas.

| Comando | Resultado |
| :---: | :---: |
| identity() | Crea una matriz identidad|
| eye() |Crea una matriz con unos en una diagonal (offset)|
| diag() |Crea una matriz con un arreglo arbitrario en la diagonal|


In [None]:
identidad = np.identity(4)
identidad

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [None]:
offset = np.eye(4, k=1) 
offset

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

In [None]:
diagonal = np.diag(np.arange(1,5,1))
diagonal

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

### *List comprehension* y creación de arreglos

Se puede crear un arreglo a partir de listas directamente obtenidas de *list comprehension*.

In [None]:
a = [4.54,844,0.23]
print([i**2 for i in a])
np.array([i**2 for i in a])

[20.6116, 712336, 0.0529]


array([2.06116e+01, 7.12336e+05, 5.29000e-02])

## Comandos útiles para trabajar con arreglos de NumPy

Los arreglos de NumPy están acompañados de varias funciones y atributos que permiten manipularlos.

| Comando | Resultado |
| :---: | :---: |
| shape | Retorna una tupla con el número de elementos por dimensión|
| ndim | Dice el número de dimensiones|
| size | Dice cuántos elementos hay en un arreglo|
| dtype | Dice el tipo de datos que guarda un arreglo|
| T | Retorna la transpuesta de un arreglo|
|flatten() | Retorna el arreglo colapsado en una dimensión|
| fill() | Rellena el arreglo con el valor especificado|
| reshape() | Retorna un arreglo con el shape especificado|
| resize() | Cambia el tamaño y shape del arreglo|
| where() | Retorna los índices donde se cumplen las condiciones dadas|

In [None]:
arr = np.array([1,2,3]) #Array de dimension 1x3
arr

array([1, 2, 3])

In [None]:
arr.reshape([3,1]) #Otra forma de crear un array 3x1

array([[1],
       [2],
       [3]])

Algunas de estas funciones son muy útiles para entender las características de los objetos con los que estamos trabajando.

In [None]:
ident = np.identity(3) #Creando una matriz identidad de 3x3

print('Matriz: \n',ident,'\n')
print('Número de elementos: ',ident.size,'\n')
print('Forma (filas,columnas): ',ident.shape, '\n')
print('Cantidad de dimensiones: ', ident.ndim)

Matriz: 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] 

Número de elementos:  9 

Forma (filas,columnas):  (3, 3) 

Cantidad de dimensiones:  2


Otras nos permiten modificar la estructura del arreglo.

In [None]:
print(arr1)

[[3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]]


In [None]:
np.resize(arr1,(7,2)) #Corta o agrega elementos según el tamaño especificado

array([[3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.]])

In [None]:
arr1 #resize() no modifica el arreglo original

array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]])

Se pueden hacer operaciones sofisticadas como la búsqueda en arreglos según ciertas condiciones y la aplicación de operaciones sobre los elementos que cumplen la condición.

In [None]:
original = np.linspace(-5,5,11)
original

array([-5., -4., -3., -2., -1.,  0.,  1.,  2.,  3.,  4.,  5.])

In [None]:
np.where(original < 0) #Retorna los índices donde los valores son menores a cero

(array([0, 1, 2, 3, 4]),)

In [None]:
np.where?

In [None]:
#Para los números que cumplen la condición calculamos el cuadrado, para los otros el cubo

np.where(original < 0, original**2, original**3)

array([ 25.,  16.,   9.,   4.,   1.,   0.,   1.,   8.,  27.,  64., 125.])

In [None]:
#Tal vez solamente necesitamos calcular el cuadrado de los que cumplen

np.where(original < 0, original**2, original)

array([25., 16.,  9.,  4.,  1.,  0.,  1.,  2.,  3.,  4.,  5.])

## <font color='purple'>**Ejercicio**</font>

Suponga que usted quiere graficar los valores de un modelo que depende de dos variables $X$ y $Y$ usando Python. Para ello, usted desea generar los valores de entrada de $X$ y de $Y$  **en dos columnas separadas de un solo arreglo**, considerando lo siguiente:

* El modelo es válido para $300 \leq X \leq 540$ y $300 \leq Y \leq 540$.
* Usted sabe que necesita 100 valores o más de ambas variables para obtener una buena resolución en la respuesta del modelo.

¿De qué forma podría crear este arreglo?


In [None]:
import numpy as np

entradas = np.linspace(300,540,240).reshape([120,2])
entradas

array([[300.        , 301.0041841 ],
       [302.0083682 , 303.0125523 ],
       [304.0167364 , 305.0209205 ],
       [306.0251046 , 307.0292887 ],
       [308.0334728 , 309.0376569 ],
       [310.041841  , 311.0460251 ],
       [312.05020921, 313.05439331],
       [314.05857741, 315.06276151],
       [316.06694561, 317.07112971],
       [318.07531381, 319.07949791],
       [320.08368201, 321.08786611],
       [322.09205021, 323.09623431],
       [324.10041841, 325.10460251],
       [326.10878661, 327.11297071],
       [328.11715481, 329.12133891],
       [330.12552301, 331.12970711],
       [332.13389121, 333.13807531],
       [334.14225941, 335.14644351],
       [336.15062762, 337.15481172],
       [338.15899582, 339.16317992],
       [340.16736402, 341.17154812],
       [342.17573222, 343.17991632],
       [344.18410042, 345.18828452],
       [346.19246862, 347.19665272],
       [348.20083682, 349.20502092],
       [350.20920502, 351.21338912],
       [352.21757322, 353.22175732],
 

## Operaciones con arreglos de NumPy

* Se pueden hacer operaciones tanto con escalares como entre matrices y vectores.
* Estas operaciones se realizan según las reglas de álgebra lineal.

In [None]:
arr = np.array([[1,2],[3,4]])

print(arr*2, '\n\n', arr/2, '\n\n', arr-10,'\n\n', arr+5, '\n') #Elemento por elemento

[[2 4]
 [6 8]] 

 [[0.5 1. ]
 [1.5 2. ]] 

 [[-9 -8]
 [-7 -6]] 

 [[6 7]
 [8 9]] 



In [None]:
arr * np.full([2,2],2) # Multiplicación de arreglos

array([[2, 4],
       [6, 8]])

In [None]:
arr.dot(np.identity(2)) # Multiplicación de matrices 

array([[1., 2.],
       [3., 4.]])

## <font color='purple'> **Analicemos las funciones de NumPy vistas hasta ahora. ¿Cómo crearía un arreglo de elementos aleatorios tipo float entre 0 y 100?**</font>

### Operadores de reducción

En general, son operaciones que tienen como objetivo reducir las dimensiones del arreglo. *Ejemplo*: Producto punto.

| Comando | Resultado que retorna |
|:----------:|:------------:|
| argmax() | Índice donde ocurren los valores máximos |
| min()    | Valor mínimo |
| argmin() | Índice donde ocurren los valores mínimos |
| conj()   | Conjugado complejo de todos los elementos |\
| round()  | Valor redondeado de cada elemento |
| trace()  | Suma de las diagonales del arreglo |
| sum()    | Suma del arreglo |
| cumsum() | Suma acumulativa |
| mean()   | Media aritmética |
| var()    | Varianza|
| std()    | Desviación estándar |
| prod()   | Producto |
| cumprod()| Producto acumulativo |


In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
a.prod() #Producto de todos los elementos de un arreglo

479001600

In [None]:
b = np.array([[1+2j,2+2j],[1-2j,5-12j]])
b

array([[1. +2.j, 2. +2.j],
       [1. -2.j, 5.-12.j]])

In [None]:
b.conj() #Conjugado del complejo

array([[1. -2.j, 2. -2.j],
       [1. +2.j, 5.+12.j]])

In [None]:
datos = np.array([402.23,384.60,384.21,409.58,374.42,402.06])

#Estadísticos descriptivos

print('Media: ', np.mean(datos))
print('Desviación estándar: ',np.std(datos))  

Media:  392.84999999999997
Desviación estándar:  12.48384556136449


## Indexación y slicing

* Se puede acceder al índice o posición del elemento de un array con la sintaxis **[fila,columna]**.
* El slicing se consigue con **[inicio:final:step,inicio:final:step]** en el orden **[filas,columnas]**.

In [None]:
print(a,'\n')

#a[:2,0:4:2]



[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] 



¡Cuidado! Al hacer *slicing*, no se copian los datos subyacentes.

In [None]:
original = np.array([1,2,3])
original

array([1, 2, 3])

In [None]:
trozo = original[:2]
trozo

array([1, 2])

In [None]:
trozo[0] = 9
trozo

array([9, 2])

In [None]:
original #¡Cambiamos el arreglo original!

array([9, 2, 3])

Los subarreglos que se extraen a través de *slicing* son vistas (views) de los datos originales. Hacen referencia a los mismos datos en memoria. 



In [None]:
original = np.array([1,2,3])
trozo = original[:2]

modificado = np.copy(trozo)
modificado[0] = 9

print(original)
print(modificado)

[1 2 3]
[9 2]


## Manejo de archivos con NumPy

* NumPy permite cargar datos de un archivo de texto con la función. Los datos se guardan en un array.
* **loadtxt()** es una de las funciones más usadas.



In [None]:
datos = np.loadtxt(open('entrada.csv','r'),delimiter=',')

In [None]:
datos

array([[0.56445312, 0.7857666 , 0.66238403, 0.381073  , 0.76885986],
       [0.70596313, 0.89736938, 0.90246582, 0.88717651, 0.21951294],
       [0.00320435, 0.88973999, 0.27859497, 0.18301392, 0.10778809],
       [0.36602783, 0.15338135, 0.62615967,        nan, 0.98999023],
       [0.19818115, 0.00131226, 0.20666504, 0.55252075, 0.71081543],
       [0.90380859, 0.05490112, 0.70968628, 0.02615356, 0.91934204],
       [0.15689087, 0.85852051, 0.51434326, 0.75436401, 0.4425354 ],
       [0.56121826, 0.93249512, 0.30606079, 0.21484375, 0.42486572],
       [0.41104126, 0.82803345, 0.27801514,        nan, 0.85632324],
       [0.84790039, 0.80950928, 0.49990845, 0.05026245, 0.99301147]])

In [None]:
np.sqrt(datos)

array([[0.75130096, 0.88643477, 0.81386979, 0.6173111 , 0.87684654],
       [0.84021612, 0.94729583, 0.94998201, 0.94190048, 0.46852208],
       [0.05660694, 0.9432603 , 0.52782096, 0.42780126, 0.32831096],
       [0.60500234, 0.39163931, 0.79130251,        nan, 0.99498253],
       [0.44517542, 0.03622507, 0.45460427, 0.7433174 , 0.84309871],
       [0.95068848, 0.23430989, 0.8424288 , 0.16172064, 0.95882326],
       [0.39609452, 0.92656382, 0.71717729, 0.86854131, 0.66523334],
       [0.74914502, 0.96565787, 0.55322761, 0.46351241, 0.65181725],
       [0.641125  , 0.90996343, 0.52727141,        nan, 0.92537735],
       [0.92081507, 0.89972733, 0.70704204, 0.22419289, 0.99649961]])

Con **skiprows** se puede omitir tantas filas como se desee.

In [None]:
datos = np.loadtxt(open('entrada.csv','r'),delimiter=',',skiprows=4) #Ignora las primeras 4 filas
datos

array([[0.19818115, 0.00131226, 0.20666504, 0.55252075, 0.71081543],
       [0.90380859, 0.05490112, 0.70968628, 0.02615356, 0.91934204],
       [0.15689087, 0.85852051, 0.51434326, 0.75436401, 0.4425354 ],
       [0.56121826, 0.93249512, 0.30606079, 0.21484375, 0.42486572],
       [0.41104126, 0.82803345, 0.27801514,        nan, 0.85632324],
       [0.84790039, 0.80950928, 0.49990845, 0.05026245, 0.99301147]])

### Archivos con encabezados

Para cargar datos con encabezados en las columnas se utiliza **genfromtxt()**. Con esta función también se pueden leer archivos sin encabezado usando **names=False**.

In [None]:
datos = np.genfromtxt('sismos.csv', dtype=float, delimiter=',', names=True)
datos

array([(1990.,  5.,  6.,  1., 56., 3., 9.7489, -83.7534),
       (1991.,  4., 30.,  1., 55., 5., 9.7489, -83.7534),
       (1992.,  8., 31.,  2., 44., 3., 9.7489, -83.7534),
       (1993.,  7.,  3.,  3., 21., 4., 9.7489, -83.7534),
       (1993.,  9., 24.,  4., 39., 5., 9.7489, -83.7534),
       (1993., 11., 15.,  5., 17., 3., 9.7489, -83.7534),
       (1993.,  1., 16.,  8., 45., 7., 9.7489, -83.7534),
       (1997.,  2., 22.,  9., 44., 4., 9.7489, -83.7534),
       (1998.,  3., 12., 15., 54., 2., 9.7489, -83.7534),
       (1999., 11., 13., 15., 21., 3., 9.7489, -83.7534),
       (2000.,  2., 14., 16., 10., 8., 9.7489, -83.7534)],
      dtype=[('anio', '<f8'), ('mes', '<f8'), ('dia', '<f8'), ('hora', '<f8'), ('minuto', '<f8'), ('escala', '<f8'), ('latitud', '<f8'), ('longitud', '<f8')])

 * Se puede acceder a los nombres con el atributo **dtype.names**.
 * Para conocer los datos se puede usar el nombre de las columnas en vez del índice.

In [None]:
datos.dtype.names

('anio', 'mes', 'dia', 'hora', 'minuto', 'escala', 'latitud', 'longitud')

In [None]:
datos['escala']

array([3., 5., 3., 4., 5., 3., 7., 4., 2., 3., 8.])

### Guardar datos
**savetxt()** sirve para guardar datos.

In [None]:
arr = np.arange(0, 1000, 0.01)

In [None]:
np.savetxt('salida.csv',arr, delimiter=',', fmt='%.2f') #fmt indica el formato de los decimales para cada float