# MÉTODOS DE UN ARREGLO

Como vimos en una de las lecciones anteriores, un arreglo de NumPy es un objeto tipo `ndarray` en Python. Y por ser un objeto tiene asociado unos métodos que permiten ejecutar diferentes operaciones sobre el arreglo.

En esta lección veremos los métodos más usados en Machine Learning y Ciencia de Datos.

In [1]:
import numpy as np

# Creemos dos arreglos: un vector y una matriz
vector = np.arange(5,20) # Vector con 14 elementos
matriz = np.linspace(1,10,20).reshape((5,4)) # Matriz de 5x4

print(vector)
print(matriz)

[ 5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[[ 1.          1.47368421  1.94736842  2.42105263]
 [ 2.89473684  3.36842105  3.84210526  4.31578947]
 [ 4.78947368  5.26315789  5.73684211  6.21052632]
 [ 6.68421053  7.15789474  7.63157895  8.10526316]
 [ 8.57894737  9.05263158  9.52631579 10.        ]]


In [None]:
# Y recordemos que podemos acceder a los atributos y métodos usando . + TAB
vector.

Veamos los atributos usados más comúnmente en Ciencia de Datos y Machine Learning.

## MÉTODOS `max`, `min`, `argmax` Y `argmin`

Indican respectivamente:
- `max` y `min`: los valores máximo y mínimo del arreglo
- `argmax` y `argmin`: las posiciones dentro del arreglo de esos valores máximo y mínimo

In [2]:
# Valores máximo y mínimo del vector
vector_maximo = vector.max()
vector_minimo = vector.min()

print(f'Matriz: \n{vector}')
print(f'Valor máximo del vector: {vector_maximo}')
print(f'Valor mínimo del vector: {vector_minimo}')

Matriz: 
[ 5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
Valor máximo del vector: 19
Valor mínimo del vector: 5


In [3]:
# Valores máximo y mínimo de la matriz
matriz_maximo = matriz.max()
matriz_minimo = matriz.min()

print(f'Matriz: \n{matriz}')
print(f'Valor máximo de la matriz: {matriz_maximo}')
print(f'Valor mínimo de la matriz: {matriz_minimo}')

Matriz: 
[[ 1.          1.47368421  1.94736842  2.42105263]
 [ 2.89473684  3.36842105  3.84210526  4.31578947]
 [ 4.78947368  5.26315789  5.73684211  6.21052632]
 [ 6.68421053  7.15789474  7.63157895  8.10526316]
 [ 8.57894737  9.05263158  9.52631579 10.        ]]
Valor máximo de la matriz: 10.0
Valor mínimo de la matriz: 1.0


In [4]:
# Pero en el caso de la matriz también podemos hallar el mínimo/máximo por filas (axis=1)
matriz_max_fils = matriz.max(axis=1)
matriz_min_fils = matriz.min(axis=1)

print(f'Matriz: \n{matriz}')
print(f'Máximo de cada fila: {matriz_max_fils}')
print(f'Mínimo de cada fila: {matriz_min_fils}')

Matriz: 
[[ 1.          1.47368421  1.94736842  2.42105263]
 [ 2.89473684  3.36842105  3.84210526  4.31578947]
 [ 4.78947368  5.26315789  5.73684211  6.21052632]
 [ 6.68421053  7.15789474  7.63157895  8.10526316]
 [ 8.57894737  9.05263158  9.52631579 10.        ]]
Máximo de cada fila: [ 2.42105263  4.31578947  6.21052632  8.10526316 10.        ]
Mínimo de cada fila: [1.         2.89473684 4.78947368 6.68421053 8.57894737]


In [5]:
# O podemos hallar el mínimo/máximo por columnas (axis=0)
matriz_max_cols = matriz.max(axis=0)
matriz_min_cols = matriz.min(axis=0)

print(f'Matriz: \n{matriz}')
print(f'Máximo de cada columna: {matriz_max_cols}')
print(f'Mínimo de cada columna: {matriz_min_cols}')

Matriz: 
[[ 1.          1.47368421  1.94736842  2.42105263]
 [ 2.89473684  3.36842105  3.84210526  4.31578947]
 [ 4.78947368  5.26315789  5.73684211  6.21052632]
 [ 6.68421053  7.15789474  7.63157895  8.10526316]
 [ 8.57894737  9.05263158  9.52631579 10.        ]]
Máximo de cada columna: [ 8.57894737  9.05263158  9.52631579 10.        ]
Mínimo de cada columna: [1.         1.47368421 1.94736842 2.42105263]


In [6]:
# Y podemos usar argmax y argmin para hallar la posición ABSOLUTA del máximo y mínimo
vector_pos_max = vector.argmax()
vector_pos_min = vector.argmin()

print(f'Vector: \n{vector}')
print(f'Valor máximo del vector: {vector_maximo}, ubicado en la posición: {vector_pos_max}')
print(f'Valor mínimo del vector: {vector_minimo}, ubicado en la posición: {vector_pos_min}')

Vector: 
[ 5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
Valor máximo del vector: 19, ubicado en la posición: 14
Valor mínimo del vector: 5, ubicado en la posición: 0


In [7]:
# Y algo similar se puede hacer con la matriz, pero en este caso podemos hallar las
# posiciones del máximo/mínimo global o por columnas o por filas
m_pos_max = matriz.argmax()
m_pos_min = matriz.argmin()
m_pos_max_fils = matriz.argmax(axis=1) # Posición del máximo en cada fila
m_pos_min_cols = matriz.argmin(axis=0) # Posición del mínimo en cada columna

print(f'Matriz: \n{matriz}')
print(f'Valor máximo global de la matriz: {matriz_maximo}, ubicado en la posición: {m_pos_max}')
print(f'Valor mínimo global de la matriz: {matriz_minimo}, ubicado en la posición: {m_pos_min}')
print(f'Posición de los máximos en cada fila: {m_pos_max_fils}')
print(f'Posición de los mínimos en cada columna: {m_pos_min_cols}')


Matriz: 
[[ 1.          1.47368421  1.94736842  2.42105263]
 [ 2.89473684  3.36842105  3.84210526  4.31578947]
 [ 4.78947368  5.26315789  5.73684211  6.21052632]
 [ 6.68421053  7.15789474  7.63157895  8.10526316]
 [ 8.57894737  9.05263158  9.52631579 10.        ]]
Valor máximo global de la matriz: 10.0, ubicado en la posición: 19
Valor mínimo global de la matriz: 1.0, ubicado en la posición: 0
Posición de los máximos en cada fila: [3 3 3 3 3]
Posición de los mínimos en cada columna: [0 0 0 0]


## MÉTODOS `mean`, `std` y `sum`

Permiten calcular el promedio, la desviación estándar y la suma de los elementos del arreglo. Se aplica la misma lógica anterior para arreglos multidimensionales.

In [8]:
# Suma de los elementos del vector y de la matriz
print(f'Suma elementos del vector: {vector.sum()}')
print(f'Suma elementos de la matriz: {matriz.sum()}')

Suma elementos del vector: 180
Suma elementos de la matriz: 110.0


In [9]:
# Promedio por filas y desviación estándar por columnas de la matriz
print(f'Promedio por columnas de la matriz: {matriz.mean(axis=0)}')
print(f'Desviación estándar de las filas de la matriz: {matriz.std(axis=1)}')

Promedio por columnas de la matriz: [4.78947368 5.26315789 5.73684211 6.21052632]
Desviación estándar de las filas de la matriz: [0.52959505 0.52959505 0.52959505 0.52959505 0.52959505]


Los métodos `mean` y `std` son especialmente útiles en Ciencia de Datos y Machine Learning, muy usados cuando queremos hacer análisis exploratorio de datos o pre-procesarlos antes de llevarlos a un modelo de Machine Learning.

## EL MÉTODO `squeeze` Y LA FUNCIÓN `expand_dims`

Son útiles especialmente en Machine Learning cuando pre-procesamos los datos para llevarlos a un modelo o cuando queremos extraerlos del modelo para hacer predicciones:

- `squeeze`: "aplana" el arreglo, eliminando dimensiones redundantes
- `expand_dims`: "expande" el arreglo, agregando dimensiones redundantes (lo opuesto de `squeeze`)

In [10]:
# Creemos un arreglo 3D pero con dimensiones redundantes:
matriz3D = np.array(([[[0, 7], [9, 2], [5, 8]]]))

print(f'Matriz: {matriz3D}')
print(f'Tamaño: {matriz3D.shape}')

Matriz: [[[0 7]
  [9 2]
  [5 8]]]
Tamaño: (1, 3, 2)


In [11]:
# La primera dimensión es redundante y podemos aplanar la matriz para que
# el tamaño resultante sea simplemente de 3x2
matriz_sq = matriz3D.squeeze()

print(f'Tamaño original: {matriz3D.shape}')
print(f'Tamaño matriz comprimida: {matriz_sq.shape}')
print(f'Matriz original: \n{matriz3D}')
print(f'Matriz comprimida: \n{matriz_sq}')

Tamaño original: (1, 3, 2)
Tamaño matriz comprimida: (3, 2)
Matriz original: 
[[[0 7]
  [9 2]
  [5 8]]]
Matriz comprimida: 
[[0 7]
 [9 2]
 [5 8]]


In [12]:
# Y podemos expandir la matriz obtenida (3x2) para que su nuevo tamaño sea
# por ejemplo de 1x3x2x1
matriz_ex = np.expand_dims(matriz_sq,axis=(0,3))
matriz_ex.shape

(1, 3, 2, 1)

Siendo rigurosos, `expand_dims` no es como tal un método sino una función dentro de la librería NumPy. Esta función, junto con otras funciones disponibles en la librería, permite realizar operaciones aún más avanzadas sobre arreglos, y se conocen como **funciones universales** que será el tema de la próxima lección.