### Métodos básicos de ndarray

Video: https://www.youtube.com/watch?v=RwFiNlL4Q8g&list=PLO_fdPEVlfKqMDNmCFzQISI2H_nJcEDJq&index=12

Documentación: https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.math.html

Existen ciertos métodos básicos que nos permiten realizar operaciones esenciales con nuestros arrays

In [1]:
import numpy as np

np.random.seed(0)
A = np.random.randint(0,10,[2,3])
A

array([[5, 0, 3],
       [3, 7, 9]])

In [2]:
# Sumar los elementos de la matriz
A.sum()

27

In [3]:
# Sumar lo elementos verticalmente
A.sum(axis=0)

array([ 8,  7, 12])

In [4]:
# De la misma forma podemos hacerlo horizontalmente
A.sum(axis=1)

array([ 8, 19])

In [5]:
# Podemos calcular la suma acumulada
A.cumsum()

array([ 5,  5,  8, 11, 18, 27], dtype=int32)

In [6]:
# Buscar el valor mínimo de la matriz
A.min()

0

In [7]:
# Buscar el valor mínimo según un eje
A.min(axis=0)

array([3, 0, 3])

In [8]:
# También podemos buscar la posición que ocupa cada mínimo
A.argmin()

1

In [9]:
# Igualmente hacerlo según un eje
A.argmin(axis=0)

array([1, 0, 0], dtype=int64)

In [10]:
# Podemos ordenar los datos por su valor
A.sort()
A

array([[0, 3, 5],
       [3, 7, 9]])

In [11]:
# Tomemos una matriz 3x3
np.random.seed(0)
A = np.random.randint(0,10,[3,3])
A

array([[5, 0, 3],
       [3, 7, 9],
       [3, 5, 2]])

In [12]:
# Ordenamiento vertical
A.sort(axis=0)
A

array([[3, 0, 2],
       [3, 5, 3],
       [5, 7, 9]])

### Estadística con ndarray
Documentación: https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.statistics.html

In [13]:
# Tomemos la matriz 3x3 de ejemplo
np.random.seed(0)
A = np.random.randint(0,10,[3,3])
A

array([[5, 0, 3],
       [3, 7, 9],
       [3, 5, 2]])

In [14]:
# buscar la media de la matriz
A.mean()

4.111111111111111

In [15]:
# la varianza
A.var()

6.54320987654321

In [16]:
A.std()

2.5579698740491863

In [17]:
# coeficiente de correlación
np.corrcoef(A)

array([[ 1.        , -0.56362148, -0.73704347],
       [-0.56362148,  1.        , -0.14285714],
       [-0.73704347, -0.14285714,  1.        ]])

In [18]:
# Tomemos la matriz 5x5 de ejemplo
np.random.seed(0)
A = np.random.randint(0,10,[5,5])
A

array([[5, 0, 3, 3, 7],
       [9, 3, 5, 2, 4],
       [7, 6, 8, 8, 1],
       [6, 7, 7, 8, 1],
       [5, 9, 8, 9, 4]])

In [19]:
# buscar los elementos y contarlos
np.unique(A, return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([1, 2, 1, 3, 2, 3, 2, 4, 4, 3], dtype=int64))

In [20]:
# los dos arrays que devuelve np.unique pueden ser guardados en dos variables a fin de usar una de ellas
values, counts = np.unique(A, return_counts=True)

In [21]:
counts

array([1, 2, 1, 3, 2, 3, 2, 4, 4, 3], dtype=int64)

In [22]:
# mediante el método .argsort() podemos ordenar la matriz por la frecuencia de aparición de cada dato
counts.argsort()

array([0, 2, 1, 4, 6, 3, 5, 9, 7, 8], dtype=int64)

In [23]:
values[counts.argsort()]

array([0, 2, 1, 4, 6, 3, 5, 9, 7, 8])

In [24]:
# Para hacerlo más visual podemos hacer uso de un bucle que retorne un texto con la información

for i,j in zip (values[counts.argsort()], counts[counts.argsort()]):
    print (f'el valor {i} aparece {j} veces')

el valor 0 aparece 1 veces
el valor 2 aparece 1 veces
el valor 1 aparece 2 veces
el valor 4 aparece 2 veces
el valor 6 aparece 2 veces
el valor 3 aparece 3 veces
el valor 5 aparece 3 veces
el valor 9 aparece 3 veces
el valor 7 aparece 4 veces
el valor 8 aparece 4 veces


### Corrección de datasets
Puede pasar que dentro de nuestros datasets encontremos celdas con la información nan, es decir, Not a Number.

In [25]:
np.random.seed(2)
A = np.random.randn(5,5)
A[::3,::4] = np.nan
A

array([[        nan, -0.05626683, -2.1361961 ,  1.64027081,         nan],
       [-0.84174737,  0.50288142, -1.24528809, -1.05795222, -0.90900761],
       [ 0.55145404,  2.29220801,  0.04153939, -1.11792545,  0.53905832],
       [        nan, -0.0191305 ,  1.17500122, -0.74787095,         nan],
       [-0.87810789, -0.15643417,  0.25657045, -0.98877905, -0.33882197]])

In [26]:
# Al realizar la media los valores nan bloquean la operación
A.mean()

nan

In [27]:
# podemos hacer uso de métodos que ignoran los valores nan
np.nanmean(A)

-0.16640688144259666

In [28]:
np.nanvar(A)

1.0537023226012283

In [29]:
# Podemos analizar si cada celda es nan o no
np.isnan(A)

array([[ True, False, False, False,  True],
       [False, False, False, False, False],
       [False, False, False, False, False],
       [ True, False, False, False,  True],
       [False, False, False, False, False]])

In [30]:
# Incluso contabilizar los nan que tenemos
np.isnan(A).sum()

4

In [31]:
# podemos ver el porcentaje de valores nan en nuestra matriz
np.isnan(A).sum() / A.size

0.16

In [32]:
# Sustituir cada indice que resulta ser nan por 0
A[np.isnan(A)] = 0
A

array([[ 0.        , -0.05626683, -2.1361961 ,  1.64027081,  0.        ],
       [-0.84174737,  0.50288142, -1.24528809, -1.05795222, -0.90900761],
       [ 0.55145404,  2.29220801,  0.04153939, -1.11792545,  0.53905832],
       [ 0.        , -0.0191305 ,  1.17500122, -0.74787095,  0.        ],
       [-0.87810789, -0.15643417,  0.25657045, -0.98877905, -0.33882197]])

In [33]:
A.mean()

-0.13978178041178121

In [34]:
# Volvemos a iniciar una matriz 5x5
np.random.seed(2)
A = np.random.randn(5,5)
A[::3,::4] = np.nan
A

array([[        nan, -0.05626683, -2.1361961 ,  1.64027081,         nan],
       [-0.84174737,  0.50288142, -1.24528809, -1.05795222, -0.90900761],
       [ 0.55145404,  2.29220801,  0.04153939, -1.11792545,  0.53905832],
       [        nan, -0.0191305 ,  1.17500122, -0.74787095,         nan],
       [-0.87810789, -0.15643417,  0.25657045, -0.98877905, -0.33882197]])

In [35]:
# Sustituir cada indice que resulta ser nan por la media ignorando a nan
A[np.isnan(A)] = np.nanmean(A)
A

array([[-0.16640688, -0.05626683, -2.1361961 ,  1.64027081, -0.16640688],
       [-0.84174737,  0.50288142, -1.24528809, -1.05795222, -0.90900761],
       [ 0.55145404,  2.29220801,  0.04153939, -1.11792545,  0.53905832],
       [-0.16640688, -0.0191305 ,  1.17500122, -0.74787095, -0.16640688],
       [-0.87810789, -0.15643417,  0.25657045, -0.98877905, -0.33882197]])

In [36]:
np.mean(A)

-0.16640688144259663

### Algebra lineal con ndarray
Hay que decir que esta parte no es tan importante como lo que se ha explicado antes, pero resulta interesante de conocer

Documentación: https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.linalg.html

In [37]:
# Inicializamos dos matrices de unos A(2x3) y B(3x2)
A = np.ones((2,3))
B = np.ones((3,2))

In [38]:
A

array([[1., 1., 1.],
       [1., 1., 1.]])

In [39]:
B

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [40]:
# Calcular la traspuesta de la matriz A
A.T

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [41]:
# Producto matricial AxB. Recuerda las dimensiones (2,3)x(3x2)
A.dot(B)

array([[3., 3.],
       [3., 3.]])

In [42]:
# Producto matricial de BxA
B.dot(A)

array([[2., 2., 2.],
       [2., 2., 2.],
       [2., 2., 2.]])

In [43]:
# Inicializamos una matriz aleatroria 3x3
A = np.random.randint(0,10,[3,3])
A

array([[1, 7, 8],
       [2, 9, 8],
       [7, 1, 6]])

In [44]:
# Calcular el determinante de A
np.linalg.det(A)

-134.00000000000009

In [45]:
# Calcular la inversa de la matriz A
np.linalg.inv(A)

array([[-0.34328358,  0.25373134,  0.11940299],
       [-0.32835821,  0.37313433, -0.05970149],
       [ 0.45522388, -0.35820896,  0.03731343]])

In [46]:
# Calcular el valor propio de la matriz A
np.linalg.eig(A)

(array([16.04027541, -2.91053159,  2.87025618]),
 array([[ 0.5641315 ,  0.73740389, -0.17110661],
        [ 0.68467005,  0.28690039, -0.76095571],
        [ 0.46150034, -0.61149299,  0.6258346 ]]))