# **Obtención y preparación de datos**
# OD04. Operaciones con Array

In [1]:
import numpy as np

## <font color='blue'>**Ordenar y agregar elementos a una matriz**</font>

Ordenar un elemento es simple con `np.sort()`. Puede especificar el eje, el tipo y el orden cuando llama a la función.

In [2]:
arr = np.array([2, 1, 5, 10, 3, 7, 4, 9, 6, 8])
np.sort(arr)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [3]:
arr
# si no lo asignamos a ninguna variable, se mantiene el orden original en el objeto

array([ 2,  1,  5, 10,  3,  7,  4,  9,  6,  8])

In [4]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
a.shape

(4,)

Para agregar elementos, se utiliza la función `np.concatenate()`:

In [5]:
c = np.concatenate((a, b))
print(c.shape)
c

(8,)


array([1, 2, 3, 4, 5, 6, 7, 8])

In [6]:
c = np.concatenate((c, a))
print(c.shape)
c

(12,)


array([1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4])

In [7]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6]])

In [8]:
print(x.size)
print(x.shape)
print(y.size)
print(y.shape)

#y es una matriz que tiene 1 sola fila y 2 columnas


4
(2, 2)
2
(1, 2)


In [9]:
print(x)
print()
print(y)
print()
np.concatenate((x, y), axis=0)
# El axis dice con cual de las dimensiones va a concatenar
# np.concatenate((x, y), axis=1) da error, las dimensiones tienen que ser iguales para hacerlo

[[1 2]
 [3 4]]

[[5 6]]



array([[1, 2],
       [3, 4],
       [5, 6]])

In [10]:
#Les dejo un ejemplo de

matriz1 = np.array([
    [[1, 2], [3, 4], [5, 6]],
    [[7, 8], [9, 10], [11, 12]]
])
matriz2 = np.array([
    [[13, 14], [15, 16], [17, 18]],
    [[19, 20], [21, 22], [23, 24]]
])


In [11]:
resultado = np.concatenate((matriz1, matriz2), axis=2)
resultado

## el limite es ndim -1

array([[[ 1,  2, 13, 14],
        [ 3,  4, 15, 16],
        [ 5,  6, 17, 18]],

       [[ 7,  8, 19, 20],
        [ 9, 10, 21, 22],
        [11, 12, 23, 24]]])

## <font color='blue'>**Forma y Tamaño de una matriz**</font>

`ndarray.ndim` entrega el número de ejes, o dimensiones, de la matriz.

`ndarray.size` entrega el número total de elementos de la matriz.

`ndarray.shape` entrega una tupla de números enteros que indican el número de elementos almacenados a lo largo de cada dimensión de la matriz. Si, por ejemplo, tiene una matriz 2D con 2 filas y 3 columnas, la forma de su matriz es (2, 3).

Por ejemplo:

In [12]:
arr_ejemplo = np.array([[[0, 1, 2, 3],[4, 5, 6, 7]],
                        [[0, 1, 2, 3],[4, 5, 6, 7]],
                        [[0 ,1 ,2, 3],[4, 5, 6, 7]]])

#es un tensor, un objeto tridimensional, porque tenemos 3 dimensiones

In [13]:
arr_ejemplo.ndim

3

In [14]:
arr_ejemplo.size

24

In [15]:
arr_ejemplo.shape
#3 dimensiones,3 matrices, como 2 filas, y 4 componentes

(3, 2, 4)

## <font color='blue'>**Redimensionamiento de matrices**</font>

El método de `reshape()` le dará una nueva forma a una matriz sin cambiar los datos. Recuerde que cuando usa el método de redimensionamiento, la matriz que desea generar debe tener la misma cantidad de elementos que la matriz original. Si comienza con una matriz con 12 elementos, deberá asegurarse de que su nueva matriz también tenga un total de 12 elementos.

In [16]:
a = np.arange(6)
print(a)

[0 1 2 3 4 5]


In [17]:
b = a.reshape(3, 2)
print(b)

[[0 1]
 [2 3]
 [4 5]]


In [18]:
b = a.reshape(3, 2, 1)
print(b)

[[[0]
  [1]]

 [[2]
  [3]]

 [[4]
  [5]]]


## <font color='blue'>**Transponer una matriz**</font>

In [19]:
arr = np.arange(6).reshape((2, 3))
arr

## Transponer es cambiar filas por columnas

array([[0, 1, 2],
       [3, 4, 5]])

In [20]:
arr.transpose()

array([[0, 3],
       [1, 4],
       [2, 5]])

## <font color='blue'>**¿Cómo agregar nuevos ejes (dimensiones) a una matriz?**</font>

Con las funcionaes `np.newaxis` y `np.expand_dims` se puede aumentar las dimensiones de su matriz existente.

El uso de `np.newaxis` aumentará las dimensiones de su matriz en una dimensión cuando se use una vez. Esto significa que una matriz 1D se convertirá en una matriz 2D, una matriz 2D se convertirá en una matriz 3D, y así sucesivamente. Por ejemplo:

In [21]:
a = np.array([1, 2, 3, 4, 5, 6, 7])
print(a)
a.shape
#vector con 7 elementos

[1 2 3 4 5 6 7]


(7,)

In [22]:
a2 = a[np.newaxis, :]
print(a2)
a2.shape
#matriz que tiene 1 fila y 7 columnas

[[1 2 3 4 5 6 7]]


(1, 7)

In [23]:
a3 = a2[np.newaxis, :]
print(a3)
a3.shape
#matriz que tiene 1 fila y 7 columnas

[[[1 2 3 4 5 6 7]]]


(1, 1, 7)

In [24]:
a3 = a2[np.newaxis, :]
print(a3)
a3.shape
#matriz que suma 1 dimension más

[[[1 2 3 4 5 6 7]]]


(1, 1, 7)

Es posible convertir explícitamente una matriz 1D a un vector de fila o a un vector de columna usando `np.newaxis`. Por ejemplo, puede convertir una matriz 1D en un vector de fila insertando un eje a lo largo de la primera dimensión:

In [25]:
row_vector = a[np.newaxis, :]
print(row_vector)
row_vector.shape

[[1 2 3 4 5 6 7]]


(1, 7)

o convertirlo en un vector columna, insertando un eje en la segunda dimensión:

In [26]:
col_vector = a[:, np.newaxis]
print(col_vector)
col_vector.shape

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]


(7, 1)

# <font color='purple'>**Experimento**</font><br>

¿Qué sucede cuando se modifica el término ":" que acompaña a np.newaxis?

Al reemplazar ":" con un rango junto a np.newaxis, se selecciona una porción del array original y se redimensiona.

In [27]:
a2 = a[np.newaxis, 1:5]
print(a2)
a2.shape

[[2 3 4 5]]


(1, 4)

Al colocar np.newaxis en la segunda posición, el rango seleccionado del array se convierte en un vector columna (4x1) al agregar un nuevo eje en la segunda dimensión.

In [28]:
a2 = a[1:5, np.newaxis]
print(a2)
a2.shape

[[2]
 [3]
 [4]
 [5]]


(4, 1)

### <font color='purple'>**Fin Experimento**</font><br>

También es posible expandir una matriz insertando un nuevo eje en una posición específica con la función `np.expand_dims()`:

In [29]:
a = np.array([1, 2, 3, 4, 5, 6])
a.shape

(6,)

In [30]:
b = np.expand_dims(a, axis=1)
print(b.shape)
b

(6, 1)


array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [31]:
c = np.expand_dims(a, axis=0)
print(c.shape)
c

(1, 6)


array([[1, 2, 3, 4, 5, 6]])

## <font color='blue'>**Elementos únicos y conteo**</font>

In [32]:
a = np.array([11, 11, 12, 13, 14, 15, 16, 17, 12, 13, 11, 14, 18, 19, 20])
valores_unicos = np.unique(a)
print(valores_unicos)

[11 12 13 14 15 16 17 18 19 20]


Para obtener los índices de los valores únicos en una matriz NumPy se debe usar el argumento `return_index` en la función `np.unique()`:

In [33]:
valores_unicos, indices_list = np.unique(a, return_index=True)
print(indices_list)

[ 0  2  3  4  5  6  7 12 13 14]


Puede pasar el argumento `return_counts` en `np.unique()` junto con su matriz para obtener el recuento de frecuencia de valores únicos en una matriz de NumPy:

In [34]:
valores_unicos, contar_ocurrencia = np.unique(a, return_counts=True)
print(contar_ocurrencia)

[3 2 2 2 1 1 1 1 1 1]


## <font color='blue'>**Aplicar una función sobre una fila o columna de una matriz**</font>

La función `np.apply_along_axis()` permite aplicar una función sobre una de las dimisiones de un matriz. Por lo que es una herramienta con muchas posibilidades. La función tiene tres parámetros, en el primero se indica la función que se desea aplicar, en la segunda el eje sobre el que se desea aplicar la función y finalmente la matriz. Obteniéndose como salida de la función una matriz con un eje menos que el original.

Por ejemplo:

In [35]:
arr = np.arange(1, 10).reshape(3,3)
print(arr)
np.apply_along_axis(sum, 0, arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([12, 15, 18])

In [36]:
# Función que calcula el promedio entre el primero y el último elemento de un vector
def my_func(a):
    return (a[0] + a[-1]) * 0.5

b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b)
np.apply_along_axis(my_func, 0, b)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([4., 5., 6.])

In [37]:
np.apply_along_axis(my_func, 1, b)

array([2., 5., 8.])

### <font color='green'>Actividad 1</font>

Crear un matriz bidimensional _A_ de 5x5 con todos los valores cero. Usando el indexado de matrices, asignar 1 a todos los elementos de la última fila y 5 a todos los elementos de la primera columna. Finalmente, asignar el valor 100 a todos los elementos de la submatriz central de 3x3 de la matriz de 5x5.


In [38]:
# Tu código aquí ...


A = np.zeros((5, 5))

# Asignar 1 a todos los elementos de la última fila
A[-1, :] = 1

# Asignar 5 a todos los elementos de la primera columna
A[:, 0] = 5

# Asignar 100 a todos los elementos de la submatriz central de 3x3
A[1:4, 1:4] = 100

# Mostrar la matriz resultante
print(A)

[[  5.   0.   0.   0.   0.]
 [  5. 100. 100. 100.   0.]
 [  5. 100. 100. 100.   0.]
 [  5. 100. 100. 100.   0.]
 [  5.   1.   1.   1.   1.]]


<font color='green'>Fin actividad 1</font>

### <font color='green'>Actividad 2</font>

Los diámetros de las esporas del _lycopodium_ pueden medirse por métodos interferométricos &#129299; &#129299; &#129299;. Los resultados de uno de estos experimentos son los siguientes:

<img src='https://drive.google.com/uc?export=view&id=1te4LaaTF_WzyjPShqDOMnP9qDiswwZGG' width="600" align="center" style="margin-right: 50px">

donde $k$ = 5880.

Calcular, usando funciones de NumPy, el diámetro medio de las esporas y la desviación estándar de la muestra. Separar, en matrices independientes, las medidas de los diámetros:

* Que tengan valores inferiores a la media ($\mu$) menos la desviación estándar ($\sigma$), es decir $d < \mu_{d} - \sigma_{d}$
* Que tengan valores superiores a la media más la desviación estándar, es decir $d > \mu_{d} + \sigma_{d}$
* Que tengan valores entre $\mu_{d} - \sigma_{d} < d < \mu_{d} + \sigma_{d}$

*Fuente: Adaptado de Curso de Computación Científica, J. Pérez, T. Roca y C. López*

In [39]:
# Tu código aquí ...

# Armamos la matriz y definimos k
diam = np.array([list(range(14,24)), [1,1,8,24,48,58,35,16,8,1]])
k = 5880

# Usamos las funciones de Numpy para calcular el diámetro medio de las esporas y la desviación estándar de la muestra
# Primero generamos un array que contiene los diámetros repetidos por su frecuencia
diam_rep = np.repeat(diam[0], diam[1])

# Asumimos que los datos reales de diámetro de las esporas son (d = valor de tabla/k) para el cálculo
mu_esp = np.mean(diam_rep/k)
print(mu_esp)
# Ya que la desv est de la muestra es dividida en N-1 en vez de N, definimos ddof=1 en la función de std.
sigma_esp = np.std(diam_rep/k, ddof=1)
print(sigma_esp)

# Separamos en matrices independientes según las condiciones mencionadas:
# d < μ - σ
d_cond1 = diam[0][diam[0] < (mu_esp-sigma_esp)*k]
print(d_cond1)
# d > μ + σ
d_cond2 = diam[0][diam[0] > (mu_esp+sigma_esp)*k]
print(d_cond2)
# μ − σ < d < μ + σ
d_cond3 = diam[0][(diam[0] > (mu_esp - sigma_esp)*k) & (diam[0] < (mu_esp + sigma_esp)*k)]
print(d_cond3)
# Si se quisieran los diámetros reales y no los diámetros*k, se debe multiplicar cada array por k

0.003202380952380952
0.00025237261803696563
[14 15 16 17]
[21 22 23]
[18 19 20]


In [40]:
# Solución alternativa para calcular el diámetro medio de las esporas y la desviación estándar de la muestra
def mu (array):
    n = array[1].sum()
    return (array[0]*array[1]).sum()/n

def sigma (array):
    n = array[1].sum()
    return np.sqrt(((((array[0]-mu(array))**2)*array[1]).sum())/(n-1))

# Asumimos que los datos reales de diámetro de las esporas es (d = valor de tabla/k)
mu_esp = mu(diam)/k
sigma_esp = sigma(diam)/k

<font color='green'>Fin actividad 2</font>