<!-- PROFILE LINK -->
<h1 style = "text-align:center; font-size: 30px">PROGRAMACIÓN CONCURRENTE Y DISTRIBUIDA</h1>
<a href ="https://github.com/sukuzhanay">
<img src="https://avatars.githubusercontent.com/u/17354471?v=4" style="float:left;vertical-align:centre" width="110" height="110" title = "Christian Vlaldimir Sucuzhanay Arevalo 21535220">
<a href ="https://github.com/sukuzhanay?tab=repositories">
<img src="https://media-exp1.licdn.com/dms/image/C4D0BAQEu_Aa76fcmPw/company-logo_200_200/0/1630998679429?e=2159024400&v=beta&t=2feC9GG7RWCWizTqsK5HzDWB1TL2DOQuAVwnMf6FFvk" title = "M41" alt="UE" width="110" height="110" style="float:right;vertical-align:centre">

# Introducción a NumPy
## *Session 3*

NumPy (Numerical Python) es el paquete indispensable para llevar a cabo tareas de alto rendimiento y de análisis de datos. Como
ejemplo, NumPy es la base para el funcionamiento de la otra
librería que veremos, Pandas. Pandas se sitúa en un nivel por
encima de NumPy, aprovechándose de todas las características de
esta librería.

 Esta librería está **especializada en el cálculo numérico y el análisis de datos, especialmente para un gran volumen de datos**.

Al estar en un nivel superior de abstracción, Pandas ofrece unas
funciones más cercanas al usuario para facilitar el análisis de datos.
Igualmente, también ofrece operaciones de bajo nivel como Numpy


Incorpora una nueva clase de objetos llamados **arrays** que permite representar colecciones de datos de un mismo tipo en varias dimensiones, y funciones muy eficientes para su manipulación.

In [1]:
import numpy as np

In [2]:
np.

3.141592653589793

Una de las características más importantes de NumPy es su array
multidimensional, ndarray, que sirve para almacenar conjuntos de
datos. Este tipo de objeto permite realizar operaciones
matemáticas en bloques de datos completos de una manera muy
natural.

- Creación de un array: 

**np.array()** : Crea un array y devuelve una referencia a él. El número de dimensiones del array dependerá de las listas o tuplas anidadas en lista:

- Para una lista de valores se crea un array de *una dimensión*, también conocido como **vector**.

- Para una lista de listas de valores se crea un array de *dos dimensiones*, también conocido como **matriz**.

- Para una lista de listas de listas de valores se crea un array de *tres dimensiones*, también conocido como **cubo**.

- Y así sucesivamente. No hay límite en el número de dimensiones del array más allá de la memoria disponible en el sistema.

**Importante:** Los datos que contiene un objeto de tipo ndarray son homogéneos,
es decir, todos los elementos deben ser del mismo tipo.

Un array puede ser un número, se considera entonces como un array de 0 dimensiones.

In [3]:
array_0 = np.array(80)
print(array_0)

80


In [4]:
# Array de una dimensión
array_1 = np.array([1, 2, 3, 5, 7, 11])
array_1

array([ 1,  2,  3,  5,  7, 11])

In [5]:
# Array de dos dimensiones
array_2 = np.array([[1, 2, 3, 5, 7, 11],[1, 4, 9, 25, 49, 121]])
print(array_2)

[[  1   2   3   5   7  11]
 [  1   4   9  25  49 121]]


In [6]:
# Array de tres dimensiones
array_3 = np.array([[[1, 2, 3, 5, 7, 11],[1, 4, 9, 25, 49, 121]],[[1, 2, 3, 5, 7, 11],[1, 4, 9, 25, 49, 121]]])
print(array_3)

[[[  1   2   3   5   7  11]
  [  1   4   9  25  49 121]]

 [[  1   2   3   5   7  11]
  [  1   4   9  25  49 121]]]


#### Tipos de datos para ndarray

Los tipos de datos son una de las partes que hace a NumPy tan
flexible. En la mayoría de los casos, estos tipos de datos tienen un
mapeo directo con su representación en memoria, facilitando a la
máquina la lectura y escritura de los mismos.

In [7]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr1

array([1., 2., 3.])

In [9]:
arr2 = np.array([1, 2, 300, 500], dtype=np.int8)
arr2

array([  1,   2,  44, -12], dtype=int8)

In [10]:
tipos = [int, np.int8, np.int16, np.int32, np.int64]
for k in tipos:
    print(np.iinfo(k))

Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------

Machine parameters for int16
---------------------------------------------------------------
min = -32768
max = 32767
---------------------------------------------------------------

Machine parameters for int32
---------------------------------------------------------------
min = -2147483648
max = 2147483647
---------------------------------------------------------------

Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



In [11]:
tipos_float = [float, np.float16, np.float32, np.float64, np.float128]
for s in tipos_float:
    print(np.finfo(s))

Machine parameters for float64
---------------------------------------------------------------
precision =  15   resolution = 1.0000000000000001e-15
machep =    -52   eps =        2.2204460492503131e-16
negep =     -53   epsneg =     1.1102230246251565e-16
minexp =  -1022   tiny =       2.2250738585072014e-308
maxexp =   1024   max =        1.7976931348623157e+308
nexp =       11   min =        -max
---------------------------------------------------------------

Machine parameters for float16
---------------------------------------------------------------
precision =   3   resolution = 1.00040e-03
machep =    -10   eps =        9.76562e-04
negep =     -11   epsneg =     4.88281e-04
minexp =    -14   tiny =       6.10352e-05
maxexp =     16   max =        6.55040e+04
nexp =        5   min =        -max
---------------------------------------------------------------

Machine parameters for float32
---------------------------------------------------------------
precision =   6   resoluti

In [None]:
tipos_complex = [complex, np.complex64, np.complex128, np.complex256]
for s in tipos_complex:
    print(np.finfo(s))

### Atributos de un array

Existen varios atributos y funciones que describen las características de un array.

**a.ndim** : Devuelve el número de dimensiones del array a.

**a.shape**: Devuelve una tupla con las dimensiones del array a.

**a.size** : Devuelve el número de elementos del array a.

**a.dtype**: Devuelve el tipo de datos de los elementos del array a.

In [12]:
print(array_0.ndim)
print(array_1.ndim)
print(array_2.ndim)
print(array_3.ndim)

0
1
2
3


In [13]:
print(array_0.shape)
print(array_1.shape)
print(array_2.shape)
print(array_3.shape)

()
(6,)
(2, 6)
(2, 2, 6)


In [14]:
print(array_0.size)
print(array_1.size)
print(array_2.size)
print(array_3.size)

1
6
12
24


In [15]:
print(array_0.dtype)
print(array_1.dtype)
print(array_2.dtype)
print(array_3.dtype)

int64
int64
int64
int64


- Reshape: Da una nueva forma a un array sin cambiar sus datos


Como apunte importante, cuando usamos el método reshape el
número total de elementos en el array tras aplicar la
transformación debe ser el mismo. De esta forma, se nos permite
transformar un array con 4 filas y 5 columnas en uno con 10 filas y
2 columnas pero no en uno con 5 filas y 5 columnas.


https://numpy.org/doc/stable/reference/generated/numpy.reshape.html

In [16]:
array_3

array([[[  1,   2,   3,   5,   7,  11],
        [  1,   4,   9,  25,  49, 121]],

       [[  1,   2,   3,   5,   7,  11],
        [  1,   4,   9,  25,  49, 121]]])

In [None]:
array_3.shape

In [17]:
array_3.reshape(6,4)

array([[  1,   2,   3,   5],
       [  7,  11,   1,   4],
       [  9,  25,  49, 121],
       [  1,   2,   3,   5],
       [  7,  11,   1,   4],
       [  9,  25,  49, 121]])

In [18]:
array_3.reshape(24,1)

array([[  1],
       [  2],
       [  3],
       [  5],
       [  7],
       [ 11],
       [  1],
       [  4],
       [  9],
       [ 25],
       [ 49],
       [121],
       [  1],
       [  2],
       [  3],
       [  5],
       [  7],
       [ 11],
       [  1],
       [  4],
       [  9],
       [ 25],
       [ 49],
       [121]])

**np.empty(dimensiones)**: Crea y devuelve una referencia a un array vacío con las dimensiones especificadas en la tupla dimensiones.

**np.zeros(dimensiones)** : Crea y devuelve una referencia a un array con las dimensiones especificadas en la tupla dimensiones cuyos elementos son todos ceros.

**np.ones(dimensiones)** : Crea y devuelve una referencia a un array con las dimensiones especificadas en la tupla dimensiones cuyos elementos son todos unos.

**np.full(dimensiones, valor)** : Crea y devuelve una referencia a un array con las dimensiones especificadas en la tupla dimensiones cuyos elementos son todos valor.

**np.identity(n)** : Crea y devuelve una referencia a la matriz identidad de dimensión n.

**np.arange(inicio, fin, salto)** : Crea y devuelve una referencia a un array de una dimensión cuyos elementos son la secuencia desde inicio hasta fin tomando valores cada salto.

**np.linspace(inicio, fin, n)** : Crea y devuelve una referencia a un array de una dimensión cuyos elementos son la secuencia de n valores equidistantes desde inicio hasta fin.

**np.random.randn(dimensiones)** : Crea y devuelve una referencia a un array con las dimensiones especificadas en la tupla dimensiones cuyos elementos son aleatorios.

### Indexacion

##### Introducción: Acceso a los elementos de un array

Al igual que para listas, **los índices de cada dimensión comienzan en 0**.

También es posible obtener **subarrays** con el operador dos puntos : indicando el índice inicial y el siguiente al final para cada dimensión, de nuevo separados por comas.

In [19]:
array_3

array([[[  1,   2,   3,   5,   7,  11],
        [  1,   4,   9,  25,  49, 121]],

       [[  1,   2,   3,   5,   7,  11],
        [  1,   4,   9,  25,  49, 121]]])

In [20]:
array_3.shape

(2, 2, 6)

In [21]:
array_3[0] # bloque 1

array([[  1,   2,   3,   5,   7,  11],
       [  1,   4,   9,  25,  49, 121]])

In [22]:
array_3[0,1]  # bloque 1 segunda lista

array([  1,   4,   9,  25,  49, 121])

In [23]:
array_3[0,1,2] ## bloque 1, segunda lista, tercer elemento

9

In [24]:
# otra forma de acceder
array_3[0][1][2]

9

In [25]:
## subarray
print(array_3[:, 0:1])

[[[ 1  2  3  5  7 11]]

 [[ 1  2  3  5  7 11]]]


**Una diferencia importante respecto a las listas en Python, es que
la seleccion de elementos es una vista del array original. Es decir,
el subconjunto no es copiado, por lo que cualquier modificacion
afecta al array original.**

*Esta forma de trabajar es debido a que NumPy esta ideado para tratar conjuntos de datos de gran volumen. En caso de que queramos copiar una seleccion, podemos usar el metodo `copy()`.* 


- Otro tipo de indexacion que es muy util es la indexacion por medio
de booleanos. Veamos un ejemplo:

**a[condicion]** : Devuelve una lista con los elementos del array a que cumplen la condición condicion.


In [26]:
names = np.array(["Pepe", "Jose", "Maria", "Pepe", "Maria", "Jose", "Jose"])
names

array(['Pepe', 'Jose', 'Maria', 'Pepe', 'Maria', 'Jose', 'Jose'],
      dtype='<U5')

In [42]:
data = np.random.randn(7, 4)
data

array([[ 0.57454838,  2.123534  ,  1.01418016,  2.15126578],
       [ 1.21197373,  0.29534922,  0.27594548, -0.41954457],
       [ 0.74817958,  1.39504179, -0.10449311,  0.82860522],
       [-1.58020959, -1.77050887,  0.4372242 ,  0.35059513],
       [-1.13053476, -0.36441717, -1.40842768,  0.60150272],
       [ 1.25166816,  1.16938243,  1.85723251, -0.46838527],
       [ 0.71005332, -2.24593951,  0.03320989,  1.85759577]])

In [38]:
data + 1

array([[ 1.87781792,  0.30644066, -1.59044176,  0.81934331],
       [ 2.39509025,  0.70777226,  2.20650932,  1.13021106],
       [ 1.50554529, -0.20956051,  1.34041857,  1.34045546],
       [ 1.96765339,  1.57470756,  0.45670651,  1.72059361],
       [ 1.56100206,  1.26494754,  0.15237735,  2.1238234 ],
       [ 0.43762465,  1.74094328,  1.28188554,  0.2203496 ],
       [ 1.38763423, -0.13235604,  0.35931616, -0.4991419 ]])

In [36]:
lista = ["Pepe", "Jose", "Maria", "Pepe", "Maria", "Jose", "Jose"];lista

['Pepe', 'Jose', 'Maria', 'Pepe', 'Maria', 'Jose', 'Jose']

In [37]:
lista == 'Pepe'

False

In [28]:
filtro = names == 'Pepe'

In [29]:
filtro

array([ True, False, False,  True, False, False, False])

In [43]:
data[filtro] = data[filtro] + 1

In [44]:
data

array([[ 1.57454838,  3.123534  ,  2.01418016,  3.15126578],
       [ 1.21197373,  0.29534922,  0.27594548, -0.41954457],
       [ 0.74817958,  1.39504179, -0.10449311,  0.82860522],
       [-0.58020959, -0.77050887,  1.4372242 ,  1.35059513],
       [-1.13053476, -0.36441717, -1.40842768,  0.60150272],
       [ 1.25166816,  1.16938243,  1.85723251, -0.46838527],
       [ 0.71005332, -2.24593951,  0.03320989,  1.85759577]])

Como vemos, podemos filtrar los resultados dependiendo de si se
cumple o no la condicion que queramos. Una condicion
indispensable es que el array de booleanos debe tener el mismo
tamaño que el array de datos.

Ademas, podemos unir nuestro filtrado con booleanos con el otro
tipo de indexacion visto previamente

In [31]:
data

array([[ 0.87781792, -0.69355934, -2.59044176, -0.18065669],
       [ 1.39509025, -0.29222774,  1.20650932,  0.13021106],
       [ 0.50554529, -1.20956051,  0.34041857,  0.34045546],
       [ 0.96765339,  0.57470756, -0.54329349,  0.72059361],
       [ 0.56100206,  0.26494754, -0.84762265,  1.1238234 ],
       [-0.56237535,  0.74094328,  0.28188554, -0.7796504 ],
       [ 0.38763423, -1.13235604, -0.64068384, -1.4991419 ]])

In [32]:
filtro2 = data > 0

In [33]:
filtro2

array([[ True, False, False, False],
       [ True, False,  True,  True],
       [ True, False,  True,  True],
       [ True,  True, False,  True],
       [ True,  True, False,  True],
       [False,  True,  True, False],
       [ True, False, False, False]])

In [34]:
data[filtro2]

array([0.87781792, 1.39509025, 1.20650932, 0.13021106, 0.50554529,
       0.34041857, 0.34045546, 0.96765339, 0.57470756, 0.72059361,
       0.56100206, 0.26494754, 1.1238234 , 0.74094328, 0.28188554,
       0.38763423])

In [45]:
filtro3 = (names == "Bob") | (names == "Will")
filtro3

array([False, False, False, False, False, False, False])

In [None]:
data

In [None]:
data[filtro3]

In [46]:
data[names != "Pepe"] = 7
data

array([[ 1.57454838,  3.123534  ,  2.01418016,  3.15126578],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [-0.58020959, -0.77050887,  1.4372242 ,  1.35059513],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ]])

### Slicing arrays

Tomar elementos desde un índice dado a otro índice dado.

**a[start:stop]** 

**a[start:]**    

**a[:stop]**     

**a[:]**   copia el array entero

In [None]:
array_3

In [None]:
array_3[0,1,0:3] ## del bloque 1, de la lista 2, los 3 primeros elementos

In [None]:
array_1 = np.array([1, 2, 3, 5, 7, 11, 13, 17])
print(array_1[0:3]) ## los 3 primeros elementos de este vector

### Operaciones matemáticas con arrays

Existen dos formas de realizar operaciones matemáticas con arrays: **a nivel de elemento y a nivel de array**.

Las operaciones a nivel de elemento operan los elementos que ocupan la misma posición en dos arrays. Se necesitan, por tanto, dos arrays con las mismas dimensiones y el resultado es una array de la misma dimensión.

Los operadores mamemáticos +, -, *, /, %, ** se utilizan para la realizar suma, resta, producto, cociente, resto y potencia a nivel de elemento.

In [47]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[1, 1, 1], [2, 2, 2]])

In [48]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [49]:
a*2

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [50]:
b

array([[1, 1, 1],
       [2, 2, 2]])

In [51]:
b+5

array([[6, 6, 6],
       [7, 7, 7]])

In [52]:
print(a + b)

[[2 3 4]
 [6 7 8]]


In [53]:
print(a / b)

[[1.  2.  3. ]
 [2.  2.5 3. ]]


In [54]:
print(a ** 2)

[[ 1  4  9]
 [16 25 36]]


### Operaciones matemáticas a nivel de array

Los arrays son importantes porque permiten expresar operaciones
sobre muchos elementos sin la necesidad de escribir bucles. Esto es
lo que se conoce como **vectorización.**

Para realizar el producto matricial se utiliza el método

**a.dot(b)** : Devuelve el array resultado del producto matricial de los arrays a y b siempre y cuando sus dimensiones sean compatibles.

Y para trasponer una matriz se utiliza el método

**a.T** : Devuelve el array resultado de trasponer el array a.

In [55]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[1, 1], [2, 2], [3, 3]])

In [57]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [58]:
b

array([[1, 1],
       [2, 2],
       [3, 3]])

In [56]:
print(a.dot(b))

[[14 14]
 [32 32]]


In [59]:
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [60]:
print(a.T.shape)

(3, 2)


### Funciones universales de comparación

In [61]:
array_a=np.array([[1, 2, 3],[1, 4, 9]])
array_b=np.array([[1, 3, 2],[2, 2, 2]])

array_a > array_b

array([[False, False,  True],
       [False,  True,  True]])

In [62]:
array_a=np.array([[1, 2, 3],[1, 4, 9]])
array_b=np.array([[1, 3, 2],[2, 2, 2]])

print(np.greater(array_a,array_b))

[[False False  True]
 [False  True  True]]


### Agregaciones

In [63]:
array_a

array([[1, 2, 3],
       [1, 4, 9]])

In [64]:
array_b

array([[1, 3, 2],
       [2, 2, 2]])

In [65]:
np.add(array_a, array_b) ## suma los dos arrays

array([[ 2,  5,  5],
       [ 3,  6, 11]])

In [67]:
array_a

array([[1, 2, 3],
       [1, 4, 9]])

In [66]:
array_a_reduced=np.add.reduce(array_a)
array_a_reduced

array([ 2,  6, 12])

In [68]:
np.add.reduce(array_a_reduced)

20

In [69]:
array_a.sum() # es lo mismo que lo anterior

20

### Acumulados

Acumula el resultado de aplicar el operador a todos los elementos.

In [71]:
array_a

array([[1, 2, 3],
       [1, 4, 9]])

In [70]:
np.add.accumulate(array_a)

array([[ 1,  2,  3],
       [ 2,  6, 12]])

In [None]:
np.add.accumulate(array_a_reduced)

### Operaciones con arrays

In [72]:
array_a

array([[1, 2, 3],
       [1, 4, 9]])

In [73]:
array_a.sum()

20

In [74]:
array_a.sum(axis=0) 

array([ 2,  6, 12])

In [75]:
array_a.sum(axis=1)

array([ 6, 14])

### Ordenación


In [76]:
array_1d=np.random.rand(10) # definimos array
array_1d

array([0.71398566, 0.9477098 , 0.73548002, 0.55076341, 0.08596442,
       0.69190874, 0.40831457, 0.16562878, 0.92742953, 0.67527751])

In [77]:
print(np.sort(array_1d)) # ordenamos

[0.08596442 0.16562878 0.40831457 0.55076341 0.67527751 0.69190874
 0.71398566 0.73548002 0.92742953 0.9477098 ]


In [78]:
array_2d=np.random.rand(3,4) # definimos array
array_2d

array([[0.52549381, 0.62202294, 0.90117899, 0.54691277],
       [0.63523509, 0.45657972, 0.77585885, 0.90840514],
       [0.53064645, 0.34889494, 0.37805519, 0.81726118]])

In [79]:
print(np.sort(array_2d)) # ordenamos

[[0.52549381 0.54691277 0.62202294 0.90117899]
 [0.45657972 0.63523509 0.77585885 0.90840514]
 [0.34889494 0.37805519 0.53064645 0.81726118]]


In [80]:
print(np.sort(array_2d, None)) # ordenamos

[0.34889494 0.37805519 0.45657972 0.52549381 0.53064645 0.54691277
 0.62202294 0.63523509 0.77585885 0.81726118 0.90117899 0.90840514]


In [81]:
print(np.sort(array_2d,axis=0)) # ordenamos

[[0.52549381 0.34889494 0.37805519 0.54691277]
 [0.53064645 0.45657972 0.77585885 0.81726118]
 [0.63523509 0.62202294 0.90117899 0.90840514]]


In [82]:
print(np.sort(array_2d,axis=1)) # ordenamos

[[0.52549381 0.54691277 0.62202294 0.90117899]
 [0.45657972 0.63523509 0.77585885 0.90840514]
 [0.34889494 0.37805519 0.53064645 0.81726118]]


In [94]:
array_2d.sort()

### Localizar máximo y mínimo dentro de un array

In [95]:
array = np.random.rand(2,5) # definimos array aleatorio
array

array([[0.55004224, 0.92441333, 0.49841829, 0.14484796, 0.14345781],
       [0.77149607, 0.74533125, 0.94385404, 0.49723676, 0.77862742]])

In [96]:
np.max(array)

0.9438540361673576

In [97]:
np.argmax(array) # posición del array máximo

7

In [118]:
kk = np.random.rand(1,10)

In [119]:
kk

array([[0.06904766, 0.30411383, 0.92505322, 0.8661285 , 0.95609264,
        0.97344751, 0.8271156 , 0.52975989, 0.71308056, 0.32736964]])

In [122]:
kk_ord = np.sort(kk,axis=1)

In [123]:
kk_ord

array([[0.06904766, 0.30411383, 0.32736964, 0.52975989, 0.71308056,
        0.8271156 , 0.8661285 , 0.92505322, 0.95609264, 0.97344751]])

In [129]:
kk_ord[::-1]

array([[0.06904766, 0.30411383, 0.32736964, 0.52975989, 0.71308056,
        0.8271156 , 0.8661285 , 0.92505322, 0.95609264, 0.97344751]])

In [99]:
np.argmax(array)

7

In [100]:
array.reshape(10,-1)[np.argmax(array)] ## seleccionamos el elemento maximo a través de la posición

array([0.94385404])

In [101]:
np.argmax(array, axis=0)

array([1, 0, 1, 1, 1])

In [102]:
np.argmax(array, axis=1)

array([1, 2])

## CONCLUSIONES

- NumPy es una librería a bajo nivel para el tratamiento óptimo
de matrices

- Servirá como la base en que se sustenta Pandas para realizar
sus tareas

- NumPy proporciona muchos métodos y opciones para un
manejo óptimo de datos

- De entre sus características podemos destacar la facilidad para
indexar elementos, para definir tipos de datos y para aplicar
operaciones sobre todos los elementos de un array de datos.

- Además de Pandas, NumPy es la base de muchas otras
librerías actuales enfocadas en el análisis y el modelado de
datos.