# **Obtención y preparación de datos**
# OD04. Operaciones con Array

In [1]:
import numpy as np

## <font color='blue'>**Ordenar y agregar elementos a una matriz**</font>

Ordenar un elemento es simple con **np.sort()**. Puede especificar el eje, el tipo y el orden cuando llama a la función.

In [2]:
arr = np.array([2, 1, 5, 10, 3, 7, 4, 9, 6, 8])
np.sort(arr) #ordena un array (método)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [3]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
a.shape

(4,)

Para agregar elementos, se utiliza la función **np.concatenate()**:

In [4]:
c = np.concatenate((a, b)) #junta dos array
print(c.shape)
c

(8,)


array([1, 2, 3, 4, 5, 6, 7, 8])

In [5]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6]])

In [6]:
np.concatenate((x, y), axis=0) #pasa usar axis, en este caso el nmro de columnas en ambos arrays debe coincidir

array([[1, 2],
       [3, 4],
       [5, 6]])

In [7]:
#Este código va a dar error
np.concatenate((x, y), axis=1) #para concatenar por columnas, el número de filas debe ser del mismo tamaño en ambos array; en este caso el nmro de filas en x e y no coinciden

ValueError: ignored

In [10]:
#concatenamos por columna, agregando una fila al objeto b
y2 = np.concatenate((y,np.array([[7,8]])), axis=0)
np.concatenate((x,y2), axis=1)

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

## <font color='blue'>**Forma y Tamaño de una matriz**</font>

**ndarray.ndim** entrega el número de ejes, o dimensiones, de la matriz.

**ndarray.size** entrega el número total de elementos de la matriz.

**ndarray.shape** entrega una tupla de números enteros que indican el número de elementos almacenados a lo largo de cada dimensión de la matriz. Si, por ejemplo, tiene una matriz 2D con 2 filas y 3 columnas, la forma de su matriz es (2, 3).

Por ejemplo:

In [11]:
arr_ejemplo = np.array([[[0, 1, 2, 3],[4, 5, 6, 7]],
                        [[0, 1, 2, 3],[4, 5, 6, 7]],
                        [[0 ,1 ,2, 3],[4, 5, 6, 7]]])

In [12]:
arr_ejemplo.ndim #N dimensiones

3

In [13]:
arr_ejemplo.size #N elementos

24

In [14]:
arr_ejemplo.shape #Dimensión array

(3, 2, 4)

## <font color='blue'>**Redimensionamiento de matrices**</font>

El uso de **arr.reshape()** le dará una nueva forma a una matriz sin cambiar los datos. Recuerde que cuando usa el método de redimensionamiento, la matriz que desea generar debe tener la misma cantidad de elementos que la matriz original. Si comienza con una matriz con 12 elementos, deberá asegurarse de que su nueva matriz también tenga un total de 12 elementos.

In [15]:
a = np.arange(6)
print(a)

[0 1 2 3 4 5]


In [16]:
b = a.reshape(3, 2) #reordena dimesión del array
print(b)

[[0 1]
 [2 3]
 [4 5]]


In [17]:
#Error va a dar este código
# Si el número de elementos es distinto a las dimensiones del reshape se genera un error.
b = a.reshape(2, 4)

ValueError: ignored

## <font color='blue'>**Transponer una matriz**</font>

In [None]:
arr = np.arange(6).reshape((2, 3))
arr

In [None]:
arr.transpose() #transponer .transpose()

In [None]:
# Otra forma de obtener la transpuesta
arr.T #muy similar al comando en R

## <font color='blue'>**¿Cómo agregar nuevos ejes (dimensiones) a una matriz?**</font>

Con las funcionaes **np.newaxis** y **np.expand_dims** se puede aumentar las dimensiones de su matriz existente.

El uso de **np.newaxis** aumentará las dimensiones de su matriz en una dimensión cuando se use una vez. Esto significa que una matriz 1D se convertirá en una matriz 2D, una matriz 2D se convertirá en una matriz 3D, y así sucesivamente. Por ejemplo:

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7])
print(a)
a.shape

In [None]:
a2 = a[np.newaxis, :] #aumenta la dimensión del array en 1
print(a2)
a2.shape

In [None]:
#Que pasa si np.newaxis se inserta como columna
a3 = a[:, np.newaxis] #aumenta la dimensión del array en 1, aunque como vector columna
print(a3)
a3.shape

Es posible convertir explícitamente una matriz 1D a un vector de fila o a un vector de columna usando **np.newaxis**. Por ejemplo, puede convertir una matriz 1D en un vector de fila insertando un eje a lo largo de la primera dimensión:

In [None]:
row_vector = a[np.newaxis, :]
print(row_vector)
row_vector.shape

o convertirlo en un vector columna, insertando un ejer en la segundo dimensión:

In [None]:
col_vector = a[:, np.newaxis]
print(col_vector)
col_vector.shape

También es posible expandir una matriz insertando un nuevo eje en una posición específica con la función **np.expand_dims()**:

In [None]:
a = np.array([1, 2, 3, 4, 5, 6])
a.shape

In [None]:
b = np.expand_dims(a, axis=1) #Idem a #similar a np.newaxis, donde expand_dims es un método
b.shape
b

In [None]:
c = np.expand_dims(a, axis=0)
c.shape
c

## <font color='green'>**Actividad 1**</font>

1. Crear un matriz bidimensional A de 5x5 con todos los valores cero. Usando el indexado de matrices, asignar 1 a todos los elementos de la última fila y 5 a todos los elementos de la primera columna. Finalmente, asignar el valor 100 a todos los elementos de la subamatriz central de 3x3 de la matriz de 5x5.

2. Cree un vector de 25 elementos, inicializado con valores aleatorios. Luego aplique algún método o función sobre este vector que le permita concatenarlo a la matriz A.

In [18]:
#Solución 1
matrix = np.zeros((5,5)) #matriz de tamaño 5x5 de ceros
matrix[4,:] = 1 #elementos última fila igual a 1
matrix[:,0] = 5 #elementos primera columna igual a 5
matrix[1:4,1:4] = 100 #elementos centrales igual a 100
print(matrix)

[[  5.   0.   0.   0.   0.]
 [  5. 100. 100. 100.   0.]
 [  5. 100. 100. 100.   0.]
 [  5. 100. 100. 100.   0.]
 [  5.   1.   1.   1.   1.]]


In [19]:
#Solución 2
vector = np.random.default_rng() #Crea vector aleatorio
a = vector.integers(100, size=(25,)) #Pasar a enteros y de tamaño 25
a = a.reshape(5,5) #Transformarlo a matriz de 5x5
b = np.concatenate((matrix, a)) #Concatenar con Matriz
print(b)

[[  5.   0.   0.   0.   0.]
 [  5. 100. 100. 100.   0.]
 [  5. 100. 100. 100.   0.]
 [  5. 100. 100. 100.   0.]
 [  5.   1.   1.   1.   1.]
 [ 86.  93.  22.  51.  40.]
 [ 73.  77.  72.  91.  49.]
 [ 22.  72.  52.  40.  42.]
 [ 34.   7.  12.  91.  69.]
 [ 21.  98.  51.  54.  59.]]


In [20]:
#Que pasa si se concatena por columna??
np.concatenate((matrix, a), axis=1)

array([[  5.,   0.,   0.,   0.,   0.,  86.,  93.,  22.,  51.,  40.],
       [  5., 100., 100., 100.,   0.,  73.,  77.,  72.,  91.,  49.],
       [  5., 100., 100., 100.,   0.,  22.,  72.,  52.,  40.,  42.],
       [  5., 100., 100., 100.,   0.,  34.,   7.,  12.,  91.,  69.],
       [  5.,   1.,   1.,   1.,   1.,  21.,  98.,  51.,  54.,  59.]])

<font color='green'>**Fin actividad 1**</font>

## <font color='blue'>**Elementos únicos y conteo**</font>

In [None]:
a = np.array([11, 11, 12, 13, 14, 15, 16, 17, 12, 13, 11, 14, 18, 19, 20])
valores_unicos = np.unique(a) #método unique
print(valores_unicos)

Para obtener los índices de los valores únicos en una matriz NumPy se debe usar el argumento **return_index** en la función **np.unique()**:

In [None]:
valores_unicos, indices_list = np.unique(a, return_index=True) #además de los elementos únicos, se puede obtener el index con la 1ra aparición del número único (indices_list)
print(indices_list)

Puede pasar el argumento **return_counts** en **np.unique()** junto con su matriz para obtener el recuento de frecuencia de valores únicos en una matriz de NumPy:

In [None]:
valores_unicos, contar_ocurrencia = np.unique(a, return_counts=True)
print(contar_ocurrencia)

In [None]:
#Juntar index y count en un solo comando
values, index, counts = np.unique(a, return_index=True, return_counts=True)
print(values)
print(index)
print(counts)

## <font color='blue'>**Aplicar una función sobre una fila o columna de una matriz**</font>

La función **np.apply_along_axis()** permite aplicar una función sobre una de las dimisiones de un matriz. Por lo que es una herramienta con muchas posibilidades. La función tiene tres parámetros, en el primero se indica la función que se desea aplicar, en la segunda el eje sobre el que se desea aplicar la función y finalmente la matriz. Obteniéndose como salida de la función una matriz con un eje menos que el original.

Por ejemplo:

<font color="orange">Esta función abarca más funciones, inclusive definiendo un a particular</font>

In [None]:
arr = np.arange(1, 10).reshape(3,3)
print(arr)
np.apply_along_axis(sum, 0, arr)

In [None]:
#Función que calcula el promedio entre el primero y el último elemento de un vector
def my_func(a):
    return (a[0] + a[-1]) * 0.5

b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b)
np.apply_along_axis(my_func, 0, b) #axis=0 

In [None]:
np.apply_along_axis(my_func, 1, b) #axis=1

## <font color='green'>**Actividad 2**</font>

Los diámetros de las esporas del _lycopodium_ pueden medirse por métodos interferométricos &#129299; &#129299; &#129299;. Los resultados de uno de estos experimentos son los siguientes:

<img src='https://drive.google.com/uc?export=view&id=1te4LaaTF_WzyjPShqDOMnP9qDiswwZGG' width="500" align="center" style="margin-right: 20px">

donde $k$ = 5880.

Calcular, usando funciones de NumPy, el diámetro medio de las esporas y la desviación estándar de la muestra. Separar, en matrices independientes, las medidas de los diámetros:

* Que tengan valores inferiores a la media ($\mu$) menos la desviación estándar ($\sigma$), es decir $d < \mu_{d} - \sigma_{d}$
* Que tengan valores superiores a la media más la desviación estándar, es decir $d > \mu_{d} + \sigma_{d}$
* Que tengan valores entre $\mu_{d} - \sigma_{d} < d < \mu_{d} + \sigma_{d}$

**Adaptado de Curso de Computación Científica, J. Pérez, T. Roca y C. López**

In [21]:
#Solución
k = 5880
matrix = np.array([np.arange(14,24)/1, [1,1,8,24,48,58,35,16,8,1]])

def avg_std_pond(x, w):
    m = np.average(x, weights=w) # media ponderada
    s = np.sqrt(np.average((x - m)**2, weights=w)) # pondera la diferencia al cuadrado
    return np.array([m, s])

mu_sigma = avg_std_pond(matrix[0,], matrix[1,])

n_round = 2 #Parámetro de N° de decimales

print(f"Para efectos de cálculo no se considera el valor k.\n")
print(f"La media del diámetro de los pétalos es: {np.round(mu_sigma[0], n_round)}")
print(f"La desviación estándar del diámetro de los pétalos es: {np.round(mu_sigma[1], n_round)}\n")

id_min = matrix[0,] < mu_sigma @ np.array([1,-1]) # [mu, sigma] x [1, -1] = mu - sigma  #maltul se puede usar
id_max = matrix[0,] > mu_sigma @ np.array([1,1]) # [mu, sigma] x [1, 1] = mu + sigma
id_int = id_min == id_max
# id_int =  np.array([not i for i in (id_min + id_max)]) # hace lo mismo que lo de arriba

matrix_min = matrix[:,id_min]
matrix_max = matrix[:,id_max]
matrix_int = matrix[:,id_int]

print(f"Datos completos:")
print(matrix)
print(f"\nCondición d < μ − σ (<{np.round(mu_sigma @ np.array([1,-1]),n_round)}):")
print(matrix_min)
print(f"\nCondición d > μ + σ (>{np.round(mu_sigma @ np.array([1,1]),n_round)}):")
print(matrix_max)
print(f"\nCondición μ − σ < d < μ + σ ({np.round(mu_sigma @ np.array([1,-1]),n_round)} - {np.round(mu_sigma @ np.array([1,1]),n_round)}):")
print(matrix_int)

Para efectos de cálculo no se considera el valor k.

La media del diámetro de los pétalos es: 18.83
La desviación estándar del diámetro de los pétalos es: 1.48

Datos completos:
[[14. 15. 16. 17. 18. 19. 20. 21. 22. 23.]
 [ 1.  1.  8. 24. 48. 58. 35. 16.  8.  1.]]

Condición d < μ − σ (<17.35):
[[14. 15. 16. 17.]
 [ 1.  1.  8. 24.]]

Condición d > μ + σ (>20.31):
[[21. 22. 23.]
 [16.  8.  1.]]

Condición μ − σ < d < μ + σ (17.35 - 20.31):
[[18. 19. 20.]
 [48. 58. 35.]]


In [22]:
#En este caso si tomamos en cuenta la constante k
k = 5880
matrix = np.array([np.arange(14,24)*k, [1,1,8,24,48,58,35,16,8,1]])

def avg_std_pond(x, w):
    """
    x: valor de la variable
    w: frecuencia de los valores de la variable (tabla de frecuencias)
    """
    m = np.average(x, weights=w) #media con ponderación distinta a 1
    s = np.sqrt(np.average((x - m)**2, weights=w)) # pondera la diferencia al cuadrado
    return m, s

mu, sigma = avg_std_pond(matrix[0,], matrix[1,])

#valores de mu y sigma

n_round = 2 #Parámetro de N° de decimales
print(f"Para efectos de cálculo no se considera el valor k.\n")
print(f"La media del diámetro de los pétalos es: {np.round(mu, n_round)}")
print(f"La desviación estándar del diámetro de los pétalos es: {np.round(sigma, n_round)}\n")

#Intervalos de confianza
ic_min = matrix[0,] < mu - sigma #Intervalo inferior
ic_max = matrix[0,] > mu + sigma #intervalo superior
ic_int = (matrix[0,] <= mu + sigma) & (matrix[0,] >= mu - sigma) #Dentro del intervalo

print(f"Conjunto de datos:")
print(matrix)

Para efectos de cálculo no se considera el valor k.

La media del diámetro de los pétalos es: 110720.4
La desviación estándar del diámetro de los pétalos es: 8703.79

Conjunto de datos:
[[ 82320  88200  94080  99960 105840 111720 117600 123480 129360 135240]
 [     1      1      8     24     48     58     35     16      8      1]]


In [None]:
#Crear un gráfico de frecuencias 
x = [str(x) for x in matrix[0,:]]
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
ax.bar(x, matrix[1,:])
plt.show() #Al parecer los datos provienen de una distribución simétrica

In [None]:
print(f"\nCondición d < μ − σ (<{np.round(mu-sigma,n_round)}):")
print(matrix[:,ic_min])
print(f"\nCondición d > μ + σ (>{np.round(mu+sigma,n_round)}):")
print(matrix[:,ic_max])
print(f"\nCondición μ − σ < d < μ + σ ({np.round(mu-sigma,n_round)} - {np.round(mu+sigma,n_round)}):")
print(matrix[:,ic_int])

<font color='green'>**Fin actividad 2**</font>