# <center> NumPy: Fundamento de Python científico </center>

<center> <img src="https://drive.google.com/uc?export=view&id=1u9BJ9wGWUiQQnPdgH8NxPxLmjn2Q2iBX" alt="image info" width="500"/> </center>

* Está escrita en C, por lo que es más eficiente en el almacenamiento de datos.
* Tiene una implementación de arreglos muy poderosa, de carácter multidimensional.
* Engloba funciones de álgebra lineal, transformada de Fourier, etc.

# Arreglos (*arrays*) de NumPy

* Los arrays son estructuras de datos **ordenadas**, de **cantidad fija de elementos** y un tipo de **dato uniforme**. <!-Por ejemplo, si pongo un numero y una palabra, los va a poner a ambos como string para que tengan el mismo formato->
* Son los equivalentes a las matrices y los vectores en álgebra, por lo que se les puede aplicar operaciones.
* Por su implementación, son **más eficientes** que otras estructuras de datos nativas de Python. El código, además, es más conciso.


In [None]:
#Se debe importar la biblioteca NumPy
#Por covención se usa el alias np
import numpy as np

In [None]:
#Con el signo de ? podemos consultar la documentación de NumPy
?np

## ¿Por qué se dice que es más conciso y eficiente?

In [None]:
array = np.arange(1e6) #Creamos un arreglo de 1 millón de elementos

lista = list(array) #Lo convertimos en una lista
      #Se creo una lista con el mismo numero de elementos que el arreglo.

#Medimos el tiempo de 10 loops ejecutados 5 veces

%timeit -n10 y = [val*5 for val in lista] #List comprehension, multiplicar por 5 cada valor

%timeit -n10 y = array*5

#Con el resultado se ve que trabajar con un arreglo me dura menos tiempo realizar la operacion. Es un codigo mas conciso y eficiente.

## Creación de arreglos

Varias funciones sirven para crear arreglos de NumPy, entre ellas las siguientes:

| Función | Resultado |
| :---: | :---: |
| array() | Crea un arreglo con los datos especificados como estructuras de datos|
| empty() | Crea un arreglo vacío, con datos "basura"|
| zeros() | Crea un arreglo de ceros|
|ones() | Crea un arreglo de unos|
| full() | Crea un arreglo lleno del valor especificado|
| arange() | Crea un arreglo de valores indicando un valor inicial, un final y un step|
| linspace() | Crea un arreglo de valores indicando un valor inicial, un final y una cantidad deseada|
| logspace() |Crea un arreglo de valores con espaciado logarítmico|
| geomspace() |Crea un arreglo de valores con espaciado logarítmico en una progresión geométrica|
| random() | Crea una matriz de números entre 0.0 y 1.0|



In [None]:
arr = np.array([1,2,3]) #Array de dimensiones 1x3 filasxcolumnas, con esos valores.
arr

array([1, 2, 3])

In [None]:
print(arr) #Se ve que es un arreglo porque esta separado con espacios. En las listas habria comas de division

[1 2 3]


In [None]:
np.array([[1],[2],[3]]) #Array de dimensiones 3x1

array([[1],
       [2],
       [3]])

In [None]:
np.array([[1,2],[3,4]]) #Matrix 2x2

array([[1, 2],
       [3, 4]])

In [None]:
np.random.random([2,2]) #Aqui defino las filas y columnas para colocar numeros al azar entre 0 y 1.

array([[0.14001515, 0.94841862],
       [0.04245627, 0.23352044]])

* Observe que los arreglos se encierran entre **[]**, pero que al imprimir sus valores no están separados por comas como en las listas.
* Las dimensiones siempre se indican como **filas x columnas**.

### Crear arreglos con distintos valores iniciales

In [None]:
arr1 = np.empty([3,4]) # Se indican [numero de filas, numero de columnas]
                        #Crea un arreglo con datos basura, no necesariamente 0.
print(arr1,'\n') 

arr1.fill(3) #Con esto puedo llenar el arreglo de un valor que yo elija.
arr1

[[1.4053741e-316 0.0000000e+000 0.0000000e+000 0.0000000e+000]
 [0.0000000e+000 0.0000000e+000 0.0000000e+000 0.0000000e+000]
 [0.0000000e+000 0.0000000e+000 0.0000000e+000 0.0000000e+000]] 



array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]])

In [None]:
np.ones([5])# Si se indica solo un número, supondrá que son columnas
              #Aqui 5 es el numero de columnas.

array([1., 1., 1., 1., 1.])

In [None]:
np.zeros([5]) #Inicializa los valores en cero, es menos eficiente que empty porque sí inicializa
              #Aqui 5 es el numero de columnas.

array([0., 0., 0., 0., 0.])

In [None]:
np.full([2,2],np.inf) # Crea una matriz rellena de "infinito"
                      #np.inf, simula infinito, ya que no hay infinito en una computadora.

array([[inf, inf],
       [inf, inf]])

### Arreglos con secuencias incrementales

In [None]:
#El tercer argumento de arange representa el incremento deseado o step
arr2 = np.arange(0,10,1.5) #Arreglo entre 0 y 10 (sin 10), con valores cada 1.5
arr2

array([0. , 1.5, 3. , 4.5, 6. , 7.5, 9. ])

In [None]:
#El tercer argumento de linspace representa la cantidad de datos deseados en el arreglo
arr3 = np.linspace(0,10,11) #Arreglo entre 0 y 10 (con 10), con 11 valores
arr3

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

### Arreglos matriciales

Con las funciones anteriores se pueden crear matrices, pero existen también funciones para crear matrices con características específicas.

| Comando | Resultado |
| :---: | :---: |
| identity() | Crea una matriz identidad|
| eye() |Crea una matriz con unos en una diagonal (offset)|
| diag() |Crea una matriz con un arreglo arbitrario en la diagonal|


In [None]:
identidad = np.identity(4) #Crea una matriz identidad, las cuales son matrices cuadradas, o sea mismo numero de filas y columnas.
identidad

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [None]:
offset = np.eye(4, k=1) 
offset

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

In [None]:
diagonal = np.diag(np.arange(1,5,1)) #Matriz con valores en la diagonal que van de 1 a 5, espaciados de 1 en 1.
diagonal

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

### *List comprehension* y creación de arreglos

Se puede crear un arreglo a partir de listas directamente obtenidas de *list comprehension*.

In [None]:
a = [4.54,844,0.23]
np.array([i**2 for i in a])

## Comandos útiles para trabajar con arreglos de NumPy

Los arreglos de NumPy están acompañados de varias funciones y atributos que permiten manipularlos.

| Comando | Resultado |
| :---: | :---: |
| shape | Retorna una tupla con el número de elementos por dimensión|
| ndim | Dice el número de dimensiones|
| size | Dice cuántos elementos hay en un arreglo|
| dtype | Dice el tipo de datos que guarda un arreglo|
| T | Retorna la transpuesta de un arreglo|
|flatten() | Retorna el arreglo colapsado en una dimensión|
| fill() | Rellena el arreglo con el valor especificado|
| reshape() | Retorna un arreglo con el shape especificado|
| resize() | Cambia el tamaño y shape del arreglo|
| where() | Retorna los índices donde se cumplen las condiciones dadas|

In [None]:
arr = np.array([1,2,3]) #Array de dimension 1x3
arr

In [None]:
arr.reshape([3,1]) #Otra forma de crear un array 3x1
                  #reshape es un metodo, por eso tiene parentesis.
                  #arr es el objeto.

Algunas de estas funciones son muy útiles para entender las características de los objetos con los que estamos trabajando.

In [None]:
ident = np.identity(3) #Creando una matriz identidad de 3x3

print('Matriz: \n',ident,'\n')
print('Número de elementos: ',ident.size,'\n') # size es un atributo, no tiene parentesis por lo cual se identifica.
print('Forma (filas,columnas): ',ident.shape, '\n')
print('Cantidad de dimensiones: ', ident.ndim)

Matriz: 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] 

Número de elementos:  9 

Forma (filas,columnas):  (3, 3) 

Cantidad de dimensiones:  2


Otras nos permiten modificar la estructura del arreglo.

In [None]:
print(arr1)

[[3. 3. 3. 3.]
 [3. 3. 3. 3.]
 [3. 3. 3. 3.]]


In [None]:
np.resize(arr1,(7,2)) #Corta o agrega elementos según el tamaño especificado

array([[3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.],
       [3., 3.]])

In [None]:
arr1 #resize() no modifica el arreglo original. Deja el arreglo original como esta.

array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]])

Se pueden hacer operaciones sofisticadas como la búsqueda en arreglos según ciertas condiciones y la aplicación de operaciones sobre los elementos que cumplen la condición.

In [None]:
original = np.linspace(-5,5,11)
original

array([-5., -4., -3., -2., -1.,  0.,  1.,  2.,  3.,  4.,  5.])

In [None]:
np.where(original < 0) #Retorna los índices/posiciones donde los valores son menores a cero

(array([0, 1, 2, 3, 4]),)

In [None]:
np.where(original <= 0) #Retorna los índices/posiciones donde los valores son menores o iguales a cero

(array([0, 1, 2, 3, 4, 5]),)

In [None]:
#Para los números que cumplen la condición calculamos el cuadrado, para los otros el cubo. (condicion, para los que cumplen, para los que no cumplen)

np.where(original < 0, original**2, original**3)

NameError: ignored

In [None]:
#Tal vez solamente necesitamos calcular el cuadrado de los que cumplen

np.where(original < 0, original**2, original)

array([25., 16.,  9.,  4.,  1.,  0.,  1.,  2.,  3.,  4.,  5.])

## <font color='purple'>**Ejercicio**</font>

Suponga que usted quiere graficar los valores de un modelo que depende de dos variables $X$ y $Y$ usando Python. Para ello, usted desea generar los valores de entrada de $X$ y de $Y$  **en dos columnas separadas de un solo arreglo**, considerando lo siguiente:

* El modelo es válido para $300 \leq X \leq 540$ y $300 \leq Y \leq 540$.
* Usted sabe que necesita 100 valores o más de ambas variables para obtener una buena resolución en la respuesta del modelo.

¿De qué forma podría crear este arreglo?


In [2]:
#Hay que construir un arreglo que tenga dos columnas, una de X y otra de Y.
#Dichos valores deben estar entre esos limites, X no depende de Y, ni viceversa.

import numpy as np

Min, Max = 300, 540 #Establezco el valor minimo y el maximo 
rango = (Max - Min) #Obtengo el rango de datos dentro de esos limites
modelo = np.random.random([100,2]) * rango + Min #Hago un arreglo que tenga 100 filas y 2 columnas, lo multiplico por el rango obtenido (240 en este caso), por lo que en este punto los valores
                                                        # irian de 0 a 240, y le sumo el valor minimo (300), haciendo que los valores vayan de 300 a 540.
print(modelo)

#Otra solucion encontrada en internet.
# rand_arr = np.random.randint(low=300, high=540, size=(100, 2)) #Esta es otra forma de hacerlo pero con numeros enteros.
# print(rand_arr)

#Solucion de la instructora:
#entradas = np.linspace(300, 540, 200).reshape([100,2])
#print(entradas)

[[512.48539233 494.44662364]
 [429.81603623 338.34784019]
 [374.9801199  346.47318161]
 [483.87700241 351.27471101]
 [476.8190723  407.51159211]
 [362.14740546 382.89600799]
 [470.11904433 407.8269746 ]
 [303.38141244 384.35499311]
 [470.80809571 512.15689583]
 [326.96913876 430.23917288]
 [423.85193386 401.17086089]
 [424.60311519 521.77725995]
 [325.35001978 446.83306063]
 [328.54826176 411.26643585]
 [525.48035378 504.36778112]
 [469.32648752 311.38084432]
 [469.4249733  408.27454238]
 [457.94338017 531.98934685]
 [502.26591245 401.43904254]
 [442.19854407 349.16128036]
 [440.62636811 506.93634155]
 [485.29705728 456.77715856]
 [456.50339403 435.90214072]
 [531.19964685 489.26957232]
 [420.3123419  510.21716332]
 [387.36094432 319.36606604]
 [472.37635352 415.59553732]
 [431.93534355 445.92593578]
 [386.08692325 466.93392271]
 [538.8791464  483.66081592]
 [315.90685388 341.18146129]
 [468.97419302 446.26794797]
 [460.74219626 520.02564762]
 [506.46305303 349.51048309]
 [308.29486065

## Operaciones con arreglos de NumPy

* Se pueden hacer operaciones tanto con escalares como entre matrices y vectores.
* Estas operaciones se realizan según las reglas de álgebra lineal.

In [None]:
arr = np.array([[1,2],[3,4]])

print(arr*2, '\n\n', arr/2, '\n\n', arr-10,'\n\n', arr+5, '\n') #Elemento por elemento

[[2 4]
 [6 8]] 

 [[0.5 1. ]
 [1.5 2. ]] 

 [[-9 -8]
 [-7 -6]] 

 [[6 7]
 [8 9]] 



In [None]:
arr * np.full([2,2],2) # Multiplicación de arreglos

array([[2, 4],
       [6, 8]])

In [None]:
arr.dot(np.identity(2)) # Multiplicación de matrices 

array([[1., 2.],
       [3., 4.]])

## <font color='purple'> **Analicemos las funciones de NumPy vistas hasta ahora. ¿Cómo crearía un arreglo de elementos aleatorios tipo float entre 0 y 100?**</font>

In [None]:
np.random.random([4,4])

np.random.random([4,4])*100 #Matriz 4x4 con numeros entre 0 y 100.

array([[21.13636617, 92.77738273,  4.40743644, 38.59305792],
       [17.71196553,  1.98413838,  9.5974651 , 56.21357042],
       [70.75915033, 43.91683828, 96.15414822, 38.31829561],
       [11.74981138, 90.05373631, 16.59749777, 27.05533301]])

### Operadores de reducción

En general, son operaciones que tienen como objetivo reducir las dimensiones del arreglo. *Ejemplo*: Producto punto.

| Comando | Resultado que retorna |
|:----------:|:------------:|
| argmax() | Índice donde ocurren los valores máximos |
| min()    | Valor mínimo |
| argmin() | Índice donde ocurren los valores mínimos |
| conj()   | Conjugado complejo de todos los elementos |\
| round()  | Valor redondeado de cada elemento |
| trace()  | Suma de las diagonales del arreglo |
| sum()    | Suma del arreglo |
| cumsum() | Suma acumulativa |
| mean()   | Media aritmética |
| var()    | Varianza|
| std()    | Desviación estándar |
| prod()   | Producto |
| cumprod()| Producto acumulativo |


In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
a.prod() #Producto de todos los elementos de un arreglo

479001600

In [None]:
b = np.array([[1+2j,2+2j],[1-2j,5-12j]])
b

array([[1. +2.j, 2. +2.j],
       [1. -2.j, 5.-12.j]])

In [None]:
b.conj() #Conjugado del complejo

array([[1. -2.j, 2. -2.j],
       [1. +2.j, 5.+12.j]])

In [None]:
datos = np.array([402.23,384.60,384.21,409.58,374.42,402.06])

#Estadísticos descriptivos

print('Media: ', np.mean(datos))
print('Desviación estándar: ',np.std(datos))  

Media:  392.84999999999997
Desviación estándar:  12.48384556136449


## Indexación y slicing

* Se puede acceder al índice o posición del elemento de un array con la sintaxis **[fila,columna]**.
* El slicing se consigue con **[inicio:final:step,inicio:final:step]** en el orden **[filas,columnas]**.

In [None]:
a[0] #Asi indexo, pero debo especificar fila y columna o más detalles porque es una matriz

array([1, 2, 3, 4])

In [None]:
print(a,'\n')

a[:2,1:3] # Condicion de fila, condicion de columna
          # Hace slicing, en la condicion de fila indica quiere los elementos que van desde el inicio hasta la fila 2 (incluyendola).
          # Hace slicing, en la condicion de columna indica que quiere los elementos que van mas adelante de la columna 1 (sin incluirla) y hasta la columna 3 (incluyendola)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] 



array([[2, 3],
       [6, 7]])

¡Cuidado! Al hacer *slicing*, no se copian los datos subyacentes.

In [None]:
original = np.array([1,2,3])
original

In [None]:
trozo = original[:2]
trozo

In [None]:
trozo[0] = 9
trozo

In [None]:
original #¡Cambiamos el arreglo original!

## Manejo de archivos con NumPy

* NumPy permite cargar datos de un archivo de texto con la función. Los datos se guardan en un array.
* **loadtxt()** es una de las funciones más usadas.



In [None]:
datos = np.loadtxt(open('entrada.csv','r'),delimiter=',') # 'r' indica que se va a leer. El delimitador es lo que se usa para separar los datos y leerlos.

In [None]:
datos #Carga lso datos en un arreglo de numpy

array([[0.56445312, 0.7857666 , 0.66238403, 0.381073  , 0.76885986],
       [0.70596313, 0.89736938, 0.90246582, 0.88717651, 0.21951294],
       [0.00320435, 0.88973999, 0.27859497, 0.18301392, 0.10778809],
       [0.36602783, 0.15338135, 0.62615967,        nan, 0.98999023],
       [0.19818115, 0.00131226, 0.20666504, 0.55252075, 0.71081543],
       [0.90380859, 0.05490112, 0.70968628, 0.02615356, 0.91934204],
       [0.15689087, 0.85852051, 0.51434326, 0.75436401, 0.4425354 ],
       [0.56121826, 0.93249512, 0.30606079, 0.21484375, 0.42486572],
       [0.41104126, 0.82803345, 0.27801514,        nan, 0.85632324],
       [0.84790039, 0.80950928, 0.49990845, 0.05026245, 0.99301147]])

In [None]:
np.sqrt(datos)

array([[0.75130096, 0.88643477, 0.81386979, 0.6173111 , 0.87684654],
       [0.84021612, 0.94729583, 0.94998201, 0.94190048, 0.46852208],
       [0.05660694, 0.9432603 , 0.52782096, 0.42780126, 0.32831096],
       [0.60500234, 0.39163931, 0.79130251,        nan, 0.99498253],
       [0.44517542, 0.03622507, 0.45460427, 0.7433174 , 0.84309871],
       [0.95068848, 0.23430989, 0.8424288 , 0.16172064, 0.95882326],
       [0.39609452, 0.92656382, 0.71717729, 0.86854131, 0.66523334],
       [0.74914502, 0.96565787, 0.55322761, 0.46351241, 0.65181725],
       [0.641125  , 0.90996343, 0.52727141,        nan, 0.92537735],
       [0.92081507, 0.89972733, 0.70704204, 0.22419289, 0.99649961]])

Con **skiprows** se puede omitir tantas filas como se desee.

In [None]:
datos = np.loadtxt(open('entrada.csv','r'),delimiter=',',skiprows=4) #Ignora las primeras 4 filas
datos

array([[0.19818115, 0.00131226, 0.20666504, 0.55252075, 0.71081543],
       [0.90380859, 0.05490112, 0.70968628, 0.02615356, 0.91934204],
       [0.15689087, 0.85852051, 0.51434326, 0.75436401, 0.4425354 ],
       [0.56121826, 0.93249512, 0.30606079, 0.21484375, 0.42486572],
       [0.41104126, 0.82803345, 0.27801514,        nan, 0.85632324],
       [0.84790039, 0.80950928, 0.49990845, 0.05026245, 0.99301147]])

### Archivos con encabezados

Para cargar datos con encabezados en las columnas se utiliza **genfromtxt()**. Con esta función también se pueden leer archivos sin encabezado usando **names=False**.

In [None]:
datos = np.genfromtxt('sismos.csv', dtype=float, delimiter=',', names=True)
        #Parsear es cambiar el tipo de dato, o adaptar a que sean cierto tipo de dato en especifico.
datos

array([(1990.,  5.,  6.,  1., 56., 3., 9.7489, -83.7534),
       (1991.,  4., 30.,  1., 55., 5., 9.7489, -83.7534),
       (1992.,  8., 31.,  2., 44., 3., 9.7489, -83.7534),
       (1993.,  7.,  3.,  3., 21., 4., 9.7489, -83.7534),
       (1993.,  9., 24.,  4., 39., 5., 9.7489, -83.7534),
       (1993., 11., 15.,  5., 17., 3., 9.7489, -83.7534),
       (1993.,  1., 16.,  8., 45., 7., 9.7489, -83.7534),
       (1997.,  2., 22.,  9., 44., 4., 9.7489, -83.7534),
       (1998.,  3., 12., 15., 54., 2., 9.7489, -83.7534),
       (1999., 11., 13., 15., 21., 3., 9.7489, -83.7534),
       (2000.,  2., 14., 16., 10., 8., 9.7489, -83.7534)],
      dtype=[('anio', '<f8'), ('mes', '<f8'), ('dia', '<f8'), ('hora', '<f8'), ('minuto', '<f8'), ('escala', '<f8'), ('latitud', '<f8'), ('longitud', '<f8')])

 * Se puede acceder a los nombres con el atributo **dtype.names**.
 * Para conocer los datos se puede usar el nombre de las columnas en vez del índice.

In [None]:
datos.dtype.names

('anio', 'mes', 'dia', 'hora', 'minuto', 'escala', 'latitud', 'longitud')

In [None]:
datos['escala'] #Indexo por el nombre de la columna.

array([3., 5., 3., 4., 5., 3., 7., 4., 2., 3., 8.])

### Guardar datos
**savetxt()** sirve para guardar datos.

In [None]:
arr = np.arange(0, 1000, 0.01) #arreglo entre 0 y 1000, separado por 0.01
arr

In [None]:
np.savetxt('salida.csv',arr, delimiter=',', fmt='%.2f') #fmt indica el formato de los decimales para cada float, en este caso dos decimales.
              # Formato csv, indica archivos separados por , o similar.