# Numpy
<img src="https://miro.medium.com/max/765/1*cyXCE-JcBelTyrK-58w6_Q.png" alt="car_her" width="600"/>

<div style="text-align: right">Autor: Luis A. Muñoz - 2021 </div>

NumPy es una extensión de Python, que le agrega soporte para vectores y matrices, constituyendo una biblioteca de funciones matemáticas de alto nivel.  [*Wikipedia*](https://es.wikipedia.org/wiki/NumPy)

`numpy` es la librería con la que ingresamos al espacio de *Python Cientfico*, es decir, utilizar Python como una herramienta de análisis numérico y análisis de datos. Este módulo forma parte de un conjunto de módulos que en conjunto forman las herramientas de cálculo científico, donde `numpy` es el soporte de las demás:

* numpy: soporte de arreglos y matrices para operaciones matemáticas
* matplotlib: soporte de gráficas científicas 2D y 3D
* pandas: soporte de análisis y procesamiento de datos
* scipy: soporte de matemática simbólica

La organización de los módulos se esquematiza en la siguiente figura:

<img src="https://i.pinimg.com/originals/64/76/33/647633cd03455ded68fd9de2524f09cb.png" alt="car_her" width="300"/>

Lo primero que debemos hacer para trabajar con la librería `numpy` es importarla con el alias `np`. Eso es un estándar:

In [2]:
#se importa el módulo o librería numpy con el alias np
import numpy as np

### Arreglos: vectores o arreglos 1-dimensionales
Para entender la forma como `numpy` gestiona los arreglos, debemos empezar con arreglos de una sola dimensión, es decir, arreglos 1-dimensionales. 

Se pueden crear arreglos unidimensionales a partir de una lista 

In [4]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9],dtype=np.float32)  #el tipo de los datos será float32
print(A)
print(type(A))

[1. 2. 3. 4. 5. 6. 7. 8. 9.]
<class 'numpy.ndarray'>


Todos los arreglos (como buenos objetos de la clase `ndarray`) tienen algunas propiedades. Entre las más importantes:

* `array.size`: El número de elementos de un arreglo
* `array.ndim`: El número de dimensiones de un arreglo
* `array.shape`: La forma que tiene un arreglo (dimensiones de sus ejes).
* `array.dtype`: El tipo de datos de los elementos de un arreglo
* `array.itemsize`: El número de bytes por elemento

In [6]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]) 
print(A)
print("Num de elementos:", A.size)     # No use len(A) !!!
print("Dimensiones:", A.ndim)
print("Forma:", A.shape)               # (n,): Tupla de un solo valor
print("Tipo de dato: ", A.dtype)
print("Bytes de memoria por elemento:", A.itemsize)

[1 2 3 4 5 6 7 8 9]
Num de elementos: 9
Dimensiones: 1
Forma: (9,)
Tipo de dato:  int32
Bytes de memoria por elemento: 4


Al igual que en el caso de una lista, los arreglos soportan indexación e *index-slicing*:

In [7]:
A = np.array([1, 2, -3, 4, 5, 6, 7, 8, 9])
print(A)
print(A[0])
print(A[-1])
print(A[::2])

[ 1  2 -3  4  5  6  7  8  9]
1
9
[ 1 -3  5  7  9]


Los arreglos también soportan la asignación de valores por medio de los índices pero no se puede operar con cualquier valor cuando se trata de un arreglo. Analice los siguentes resultados:

In [8]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

A[0]=100
print(A)

A[-1]=10.5
print(A)

A[2] = '60'
print(A)

A[-1] = 'a'

[100   2   3   4   5   6   7   8   9]
[100   2   3   4   5   6   7   8  10]
[100   2  60   4   5   6   7   8  10]


ValueError: invalid literal for int() with base 10: 'a'

La primera asignación es correcta: el valor 1 es reemplazado por el valor de 100. Sin embargo en la segunda y tercera asignación el último valor de 9 no se reemplaza por 10.5, sino por 10 y en el otro caso el segundo valor por 60 y no por '60'. Una pista de los que puede estar sucediendo está en el error de la tercera instrucción: 'a' no es un valor entero (int). Esto es porque los arreglos estan pensados para la operación de valores numéricos de manera eficiente (aunque pueden soportar str, por ejemplo, pero no es lo usual) y para que esto suceda todos los valores tienen que ser del mismo tipo (y eso quiere decir no solo del mismo tipo de datos, sino inclusive del mismo tamaño). El arreglo anterior esta conformado por valores enteros de 32 bits y cualquier cosa que se quiera agregar o modificar en el arreglo debe ser del mismo tipo y tamaño.

### Ventajas de un arreglo
Para entender porque utilizar el objeto estrella de numpy, un `array`, debemos considerar el uso de las listas en las operaciones científicas. 

Generemos una lista de 1,000,000 valores de temperatura entre 20 - 30 grados.

In [10]:
from random import uniform

temp_c = [uniform(20,30) for _ in range(1000000)]

print("{},{},{}....,numero de elementos: {}".format(temp_c[0],temp_c[1],
                                                   temp_c[2],len(temp_c)))

29.41888191638003,28.972254122233455,24.01255976425753....,numero de elementos: 1000000


¿Cómo podemos generar un lista de temperarturas en grados Fahrenheit a partir de la lista de valores de grados centígrados? La forma más básica es recorrer la lista orginal e ir extrayendo cada valor para hacer la conversión y almacenar el resultado en una nueva lista. La conversión de valores utiliza la siguiente ecuación:

$$ F = \frac{9}{5} C° + 32 $$

In [11]:
%%time
#primera forma
temp_F =[]

for temp in temp_c:
    temp_F.append(9*temp/5+32)

Wall time: 269 ms


O quiza utilizando la función `map` para afectar a todos los valores de una lista por una función en este caso una función tipo `lambda`:

In [12]:
%%time
#segunda forma:

temp_F = list(map(lambda x:9*x/5+32,temp_c))

Wall time: 223 ms


Funciona pero... una mejor forma es utilizar una lista por comprehensión. Más al estilo Python...

In [13]:
%%time
#tercera forma:

temp_F = [9*temp/5+32 for temp in temp_c]

Wall time: 190 ms


Ahora, apliquemos la operación de conversión sobre el arreglo:

In [14]:
%%time
array_c = np.array(temp_c)

Wall time: 61.8 ms


In [15]:
%%time
array_F = 9*array_c/5 + 32

Wall time: 15.9 ms


Es todo. Simple, breve, pero sobre todo con un código equivalente a la ecuación. Esta no se encuentra escondida detrás de un lazo for o en una lista por compehensión o en una función. Esta escrita tal y como se muestra en la ecuación de muestra. Esa es la gran ventaja de utilizar un arreglo: las operaciones matemáticas se expresan exactamente igual que en la descripción analítica (siempre y cuando estemos con operaciones simples... ya luego todo se pone un poco más complicado, pero ya llegaremos a eso).

Otra ventaja tiene que ver con los tiempos de operacion. Según la prueba de eficiencia de operación utilizando un método mágico de los Jupyter Notebooks: `%%time` que permite medir el tiempo de ejecución de una celda, los resultados son favorables a los arreglos 

Los resultados obtenidos estarán en función del equipo donde se ejecuten las celdas anteriores, pero puede observar cuan ineficiente es el uso de lazos con una lista, como mejora la respuesta con `map` y mejor aun con una lista por comprehensión. Pero los resultados con un arreglo son de lejos mucho más eficientes.

### Métodos para un arreglo



Los métodos disponibles en el módulo numpy son muchos, demasiados como para pretender conocerlos todos. Este es un módulo muy amplio que puede ir descubriendo por su cuenta, por lo que lo que tocaremos en este curso seran los procedimientos básicos para la manipulación de arreglos y los métodos más comúnes.

Puede ver lo extensa de este módulo consultando el directorio del módulo. Es posible que reconozca algunos métodos con nombres matemáticos conocidos.

In [None]:
dir(np)

Un conocimiento útil para manipular los arreglos en `numpy` es la siguiente idea central: **Los métodos de numpy siempre crean nuevos arreglos**. Esto es muy importante ya que evita confusiones al momento de operar con los arreglos.

Por ejemplo, si tiene una lista `L` y desea anexar un valor a esta lista, utilizará el método `append` del objeto lista de la forma:

    L.append(val)
    
En cambio, si tiene un arreglo `A` y quiere anexar un valor al arreglo, utilizará el método `append` de `numpy` de la forma:

    A = np.append(A, val)

Es decir, llamará al método `append` de `numpy` y no del areglo `A`, por lo que tendrá que pasarle en los parametros el arreglo `A` así como el valor a anexar. Este método retornará un nuevo arreglo que en este caso lo estamos almacenando en el mismo arreglo `A`. Interiorice esta idea pues es importante para la manipulación de arreglos con `numpy`.

In [16]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
A = np.append(A,10)
print(A)

[ 1  2  3  4  5  6  7  8  9 10]


Otros ejemplos con métodos de `numpy`. Analice y entienda los resultados:

In [17]:
A = np.arange(10)
print(A)

[0 1 2 3 4 5 6 7 8 9]


In [18]:
A = np.arange(1,50,3)
print(A)

[ 1  4  7 10 13 16 19 22 25 28 31 34 37 40 43 46 49]


In [19]:
A = np.arange(1,5,0.25)
print(A)

[1.   1.25 1.5  1.75 2.   2.25 2.5  2.75 3.   3.25 3.5  3.75 4.   4.25
 4.5  4.75]


Esto resulta de utilidad cuando necesitamos contar con un arreglo y tenemos la información del espaciamiento entre los datos. Por ejemplo, deseamos calcular la distancia alcanzada por un móvil con una aceleración constante en cada instante de tiempo entre 0 y 10 segundos, y queremos calcular la distancia cada 0.5 segundos:

In [20]:
a = 1.3 #aceleración uniforme
t = np.arange(0,10.5,0.5) #instantes de tiempo entre 0 y 10 seg. con pasos de 0.5 seg.
d = 0.5*a*t**2

print("   TIEMPO   DISTANCIA")
print("   ------   ---------")
for val_t,val_d in zip(t,d):
    print("{:>6.2f} seg {:>6.2f} m".format(val_t,val_d))

   TIEMPO   DISTANCIA
   ------   ---------
  0.00 seg   0.00 m
  0.50 seg   0.16 m
  1.00 seg   0.65 m
  1.50 seg   1.46 m
  2.00 seg   2.60 m
  2.50 seg   4.06 m
  3.00 seg   5.85 m
  3.50 seg   7.96 m
  4.00 seg  10.40 m
  4.50 seg  13.16 m
  5.00 seg  16.25 m
  5.50 seg  19.66 m
  6.00 seg  23.40 m
  6.50 seg  27.46 m
  7.00 seg  31.85 m
  7.50 seg  36.56 m
  8.00 seg  41.60 m
  8.50 seg  46.96 m
  9.00 seg  52.65 m
  9.50 seg  58.66 m
 10.00 seg  65.00 m


Por otro lado, también tenemos el método `linspace`, que genera un espaciamiento lineal entre dos valores considerando cuantos elementos se quiere dividir el rango de manera uniforme. Por defecto, `linspace` divide el rango en 50 partes. A diferencia de `arange`, este método llega hasta el valor final, aunque esto se puede modificar estableciedo el parametro `endpoint=False`:

In [21]:
A = np.linspace(0,10)  #Espaciamiento lineal entre 0  10 (50 valores)
print(A)

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


In [19]:
A = np.linspace(0,100,12) #se obtiene 12 valores
print(A)

[  0.           9.09090909  18.18181818  27.27272727  36.36363636
  45.45454545  54.54545455  63.63636364  72.72727273  81.81818182
  90.90909091 100.        ]


Esto resulta de utilidad cuando queremos analizar un fenómeno un número de veces en un rango numérico. Por ejemplo, queremos saber la distancia alcanzada por un móvil en un rango de tiempo y queremos hacer 6 mediciones igualmente espaciadas:

In [22]:
a = 1.3 #aceleración uniforme
t = np.linspace(0,10,6) #6 instantes de tiempo entre 0 y 10 seg.
d = 0.5*a*t**2

print("   TIEMPO   DISTANCIA")
print("   ------   ---------")
for val_t,val_d in zip(t,d):
    print("{:>6.2f} seg {:>6.2f} m".format(val_t,val_d))

   TIEMPO   DISTANCIA
   ------   ---------
  0.00 seg   0.00 m
  2.00 seg   2.60 m
  4.00 seg  10.40 m
  6.00 seg  23.40 m
  8.00 seg  41.60 m
 10.00 seg  65.00 m


In [29]:
t = np.array([0.5, 1.0, 1.5])
print((t**2 + 1)/(t + 0.6))

[1.13636364 1.25       1.54761905]


In [41]:
# Metodos utiles de Numpy
A = np.array([1, 2, 3, 4, 5])
print(np.sum(A), '\n')
print(np.max(A), '\n')
print(np.min(A), '\n')
print(np.mean(A), '\n')
print(np.median(A), '\n')
print(np.prod(A), '\n')
print(np.cumsum(A), '\n')
print(np.cumprod(A), '\n')

# Operaciones básicas en numpy
print(np.sqrt(A), '\n')
print(np.sin(A), '\n')
print(np.log(A), '\n')

# Valores en numpy
print(np.pi)

15 

5 

1 

3.0 

3.0 

120 

[ 1  3  6 10 15] 

[  1   2   6  24 120] 

[1.         1.41421356 1.73205081 2.         2.23606798] 

[ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427] 

[0.         0.69314718 1.09861229 1.38629436 1.60943791] 

3.141592653589793


### Ejercicio aplicativo:

![ima.png](attachment:ima.png)

In [23]:
#solucion parcial:

R = 55
a = np.arange(5,100.25,0.25)
b = 2*np.sqrt(R**2-a**2/4)
area = (a-8)*(b-20)
maximaArea = np.max(area)

for va,vb,varea in zip(a,b,area):
    print("{:.3f}{:10.3f}{:10.3f}".format(va,vb,varea))

print("\nArea máxima: {:.3f}".format(maximaArea))

5.000   109.886  -269.659
5.250   109.875  -247.155
5.500   109.862  -224.656
5.750   109.850  -202.162
6.000   109.836  -179.672
6.250   109.822  -157.189
6.500   109.808  -134.712
6.750   109.793  -112.241
7.000   109.777   -89.777
7.250   109.761   -67.321
7.500   109.744   -44.872
7.750   109.727   -22.432
8.000   109.709     0.000
8.250   109.690    22.423
8.500   109.671    44.836
8.750   109.651    67.239
9.000   109.631    89.631
9.250   109.610   112.013
9.500   109.589   134.384
9.750   109.567   156.742
10.000   109.545   179.089
10.250   109.521   201.423
10.500   109.498   223.744
10.750   109.473   246.052
11.000   109.449   268.346
11.250   109.423   290.625
11.500   109.397   312.890
11.750   109.371   335.140
12.000   109.343   357.374
12.250   109.316   379.592
12.500   109.287   401.794
12.750   109.259   423.978
13.000   109.229   446.146
13.250   109.199   468.295
13.500   109.168   490.426
13.750   109.137   512.539
14.000   109.105   534.633
14.250   109.073   55

### Numeros aleatorios con Numpy
¿Recuerda cuanto demoró el generador de números aleatorios en generar 1,000,000 de números? `numpy` tiene un generador de número aleatorios:

In [24]:
A = np.random.random((5,))  
print(A, '\n')

A = np.random.randint(1, 10,20)     # randrange -> randint
print(A, '\n')

A = np.random.uniform(1, 5,10)
print(A, '\n')

[0.05641873 0.50688424 0.36050394 0.20139253 0.48690294] 

[6 8 6 2 9 1 9 5 1 2 8 6 8 4 5 9 5 9 4 2] 

[1.58981273 3.01278281 2.3165439  2.23042228 4.75256831 2.39673309
 2.55460267 2.48441327 4.16429637 4.87136445] 



### Indexacion booleana y el método `where`
Los índices de los elementos de un arreglo pueden especificarse por medio de operaciones lógicas. Esta es un operación muy eficiente y muy útil al momento de seleccionar datos en un arreglo. En lugar de especificar un valor o valores númericos con índices, se coloca una operación booleana. De esta forma, los índices se seleccionan en función de una máscara booleana. Considere el siguiente ejemplo:

In [31]:
A = np.array([1,2,3,4,5,6,7,8,9])
A % 2 == 0

array([False,  True, False,  True, False,  True, False,  True, False])

La operación `A % 2 == 0` retorna el valor `True` sobre los valores que son pares en el arreglo `A`. Esto actua como una "máscara" que permite filtrar los valores que cumplan con la condición anterior. De esta forma, para filtrar los valores pares del arreglo `A` se puede ejecutar la siguiente instrucción:

In [26]:
#crea un arreglo con los valores pares del arreglo A
A_pares = A[A%2==0]
print(A_pares)

[2 4 6 8]


Esto es de mucha utilidad cuando se trata de procesar grandes volumenes de datos sin tener que recurrir a lazos de control. Por ejemplo, se tienen los valores de temperatura del mes de enero y se quiere saber las temperaturas por encima de 30 grados, las que estan por encima del promedio del mes, asi como las temperaturas en un rango:

In [27]:
temp_Ene = np.random.uniform(24,32,(31,))
print(temp_Ene,"\n")

print("Temperaturas por encima de 30 grados")
print(temp_Ene[temp_Ene>30])

print("\nTemperaturas por encima del promedio del mes")
print(temp_Ene[temp_Ene>np.mean(temp_Ene)])

print("\nTemperaturas entre 28 y 29 grados")
print(temp_Ene[(temp_Ene>28) & (temp_Ene<29)])  #and (&), or (|), not(!=)

[27.00337361 29.27065945 24.59481939 24.9140186  27.59494506 29.27494823
 26.02290174 25.28571085 26.6195965  30.55988924 25.2138202  30.20521062
 30.09072501 29.16802478 29.58779354 24.49470039 26.14314128 29.15775664
 27.57445988 29.66791192 29.81633493 28.30542737 24.55537807 27.05668624
 31.10043703 30.64131374 26.91503515 25.96677607 24.47894933 27.20667986
 31.87176738] 

Temperaturas por encima de 30 grados
[30.55988924 30.20521062 30.09072501 31.10043703 30.64131374 31.87176738]

Temperaturas por encima del promedio del mes
[29.27065945 29.27494823 30.55988924 30.20521062 30.09072501 29.16802478
 29.58779354 29.15775664 29.66791192 29.81633493 28.30542737 31.10043703
 30.64131374 31.87176738]

Temperaturas entre 28 y 29 grados
[28.30542737]


Por otro lado, se puede utilizar el método `where` para conocer el(los) índices de los valores que cumplen con una condición. Por ejemplo:

In [33]:
A = np.array([1,2,3,4,5,6,7,8,9])

#accede a las posiciones de los valores pares de A
t = np.where(A%2==0)
print(t)

A_indices_pares = t[0]
print(A_indices_pares)

(array([1, 3, 5, 7], dtype=int64),)
[1 3 5 7]


Observe que el método `where` retorna una tupla con un arreglo con los indices de los elementos que cumplen con la condición como elemento, por lo que si se desea acceder a los valores se debe de leer el elemento [0] del resultado. (¿Por que una tupla como resultado? En este [link de StackOverFlow](https://stackoverflow.com/questions/50646102/what-is-the-purpose-of-numpy-where-returning-a-tuple?noredirect=1&lq=1) puede encontrar la respuesta).

Por ejemplo, ahora queremos saber que días del mes de enero la temperatura estuvo en un rango:

In [28]:
temp_Ene = np.random.uniform(24,32,(31,))
print(temp_Ene,"\n")

#que dias la temperatura estuvo en el rango de 28 a 29 grados:
t = np.where((temp_Ene>28) & (temp_Ene<29))

print(t)
for dias in t[0]:
    print("Ene {:2}: {:.2f}°C".format(dias+1,temp_Ene[dias]))

[31.31766671 29.57471518 31.21303651 27.5993846  24.87654819 27.23192158
 27.32281048 29.09250989 24.72268828 25.02963251 24.69229308 28.09358259
 29.23802718 26.81089382 27.31897298 27.96961258 30.95825558 25.72055542
 27.50227993 24.31287306 30.36571883 30.96052436 28.2435205  28.39444734
 28.25761257 28.38100363 29.96858188 28.9376211  27.42768383 26.8979797
 25.59322229] 

(array([11, 22, 23, 24, 25, 27], dtype=int64),)
Ene 12: 28.09°C
Ene 23: 28.24°C
Ene 24: 28.39°C
Ene 25: 28.26°C
Ene 26: 28.38°C
Ene 28: 28.94°C


In [30]:
#solucion final del ejercicio del afiche:

R = 55
a = np.arange(5,100.25,0.25)
b = 2*np.sqrt(R**2-a**2/4)
area = (a-8)*(b-20)
maximaArea = np.max(area)

for va,vb,varea in zip(a,b,area):
    print("{:.3f}{:10.3f}{:10.3f}".format(va,vb,varea))

print("\nArea maxíma: {:.3f}".format(maximaArea))

#en donde esta el area maxima
t = np.where(area==maximaArea)

print("Valor de a: {:.3f}".format(a[t[0][0]]))
print("Valor de b: {:.3f}".format(b[t[0][0]]))

5.000   109.886  -269.659
5.250   109.875  -247.155
5.500   109.862  -224.656
5.750   109.850  -202.162
6.000   109.836  -179.672
6.250   109.822  -157.189
6.500   109.808  -134.712
6.750   109.793  -112.241
7.000   109.777   -89.777
7.250   109.761   -67.321
7.500   109.744   -44.872
7.750   109.727   -22.432
8.000   109.709     0.000
8.250   109.690    22.423
8.500   109.671    44.836
8.750   109.651    67.239
9.000   109.631    89.631
9.250   109.610   112.013
9.500   109.589   134.384
9.750   109.567   156.742
10.000   109.545   179.089
10.250   109.521   201.423
10.500   109.498   223.744
10.750   109.473   246.052
11.000   109.449   268.346
11.250   109.423   290.625
11.500   109.397   312.890
11.750   109.371   335.140
12.000   109.343   357.374
12.250   109.316   379.592
12.500   109.287   401.794
12.750   109.259   423.978
13.000   109.229   446.146
13.250   109.199   468.295
13.500   109.168   490.426
13.750   109.137   512.539
14.000   109.105   534.633
14.250   109.073   55

### Introducción a los arreglos bidimensionales:

In [32]:
A = np.array([[3,6,4,5],[1,2,3,4],[6,9,8,9]]) 
print(A)
print("Num de elementos:", A.size)     
print("Dimensiones:", A.ndim)
print("Rango:", A.shape)              
print("Tipo de dato: ", A.dtype)
print("Bytes de memoria por elemento:", A.itemsize)

[[3 6 4 5]
 [1 2 3 4]
 [6 9 8 9]]
Num de elementos: 12
Dimensiones: 2
Rango: (3, 4)
Tipo de dato:  int32
Bytes de memoria por elemento: 4


In [33]:
#accediendo a los valores del arreglo:

print(A[0,0],'\n')
print(A[-1,-1],'\n')
print(A[:,2],'\n')
print(A[1,:],'\n')
print(A[0:2,1:4],'\n')
print(A[[1,2],:],'\n')

3 

9 

[4 3 8] 

[1 2 3 4] 

[[6 4 5]
 [2 3 4]] 

[[1 2 3 4]
 [6 9 8 9]] 

