## Masked Arrays

Masked arrays são arrays que podem ter valores inválidos ou ausentes, criados com o módulo numpy.ma.

Conjuntos de dados (datasets) podem estar incompletos por conta da presença de dados inválidos ou dados inexistentes. por exemplo, um sensor em uma aplicação IoT pode não ter registrado um dado em um momento especifico, ou o dado registrado pode ter sido corrompido. E isso pode causar problemas caso, por exemplo, seja necessário realizar cálculos com os dados obtidos, como somatório ou cálculo de valores estatísticos.
Para resolver esse problema podemos empregar um masked array (array mascarado).
Um masked array é uma combinação de um ndarray com uma máscara, sendo assim uma subclasse do objeto ndarray.

### Máscara

Uma máscara pode ser:
- nomask - Indica que nenhum valor do array associado é inválido; ou
- Um array de booleanos que determina para cada elemento do array associado se o valor é válido ou não.

Quando um elemento na máscara possui valor False (0), o elemento correspondente no array associado é válido. E quando um elemento da máscara possui valor True (1), o elemento correspondente no array é inválido. (está "mascarado").

Ou seja, uma entrada True na máscara indica um dado inválido.

Vamos a um exemplo.

In [18]:
# Usando Masked Arrays em NumPy

import numpy as np
import numpy.ma as ma

# Criar um array com um valor considerado inválido (valor 7):
a = np.array([2,4,6,7,8,10])

# Suponha que a leitura do quarto elemento do array esteja incorreta. Podemos marcá-la com
# um masked array usando o método masked_array() como segue (vamos criar o array mascarado a_mask):
a_mask = ma.masked_array(a, mask=[0,0,0,1,0,0])

# Com isso, podemos efetuar operações sobre o array mascarado sem levar em conta o valor inválido.
# Por exemplo, vamos calcular a média aritmética dos valores do array mascarado:
print('Média aritmética do array com máscara:')
print(a_mask.mean())

# Contraste o resultado obtido com o cálculo da média aritmética no array original (não-mascarado),
# que inclui o valor inválido:
print('\nMédia aritmética do array a (sem máscara):')
print(a.mean())

# Opcionalmente, podemos criar diretamente o array já mascarado, usando o
# método array do objeto masked array:
a = ma.array([2,4,6,7,8,10], mask=[0,0,0,1,0,0])
print('\nMédia aritmética do array a com máscara aplicada:')
print(a.mean())
print()
# Acessar a máscara aplicada com o atributo mask
print(a.mask)

# Retornar os dados no masked array com atributo data
print('Dados: ',a.data)


Média aritmética do array com máscara:
6.0

Média aritmética do array a (sem máscara):
6.166666666666667

Média aritmética do array a com máscara aplicada:
6.0

[False False False  True False False]
Dados:  [ 2  4  6  7  8 10]


In [4]:
# Criar máscara em array bidimensional
import numpy as np
import numpy.ma as ma

# criar array mascarado. Valores negativos são inválidos nesse exemplo
M = ma.array([[10,-15],[20,-7]], mask=[[0,1],[0,1]])

print(M)

# Acessar a máscara aplicada
M.mask

[[10 --]
 [20 --]]


array([[False,  True],
       [False,  True]])

## Modificar a máscara

Podemos modificr uma máscara já criada por meio do valor masked.
A forma recomendada para marcar uma ou mais entradas específicas em uma máscara (já criada ou não) é com o emprego do valor **masked**.

Vamos a um exemplo.

In [8]:
M = ma.array(['a','b',3,'d'])
# Valor 3 é inválido, na posição 2
print(M.mask) # Retorna simplesmente False pois não há máscara aplicada nesse exemplo.
print('Sem máscara: ', M)
M[2] = ma.masked
print(M.mask)
print('Com máscara: ', M)

False
Sem máscara:  ['a' 'b' '3' 'd']
[False False  True False]
Com máscara:  ['a' 'b' -- 'd']


CONTINUA NA PG. 198 do Numpy Reference.

In [9]:
# Outra forma de modificar uma máscara é atribuir a ela uma sequência de valores booleanos, por meio da propriedade mask:
M = ma.array(['a','b',3,'d'])
# Valor 3 é inválido, na posição 2
print(M.mask) # Retorna simplesmente False pois não há máscara aplicada nesse exemplo.
print('Sem máscara: ', M)
M.mask = [0,0,1,0]
print(M.mask)
print('Com máscara: ', M)

False
Sem máscara:  ['a' 'b' '3' 'd']
[False False  True False]
Com máscara:  ['a' 'b' -- 'd']


## Informar os valores inválidos ao criar a máscara

Suponhamos que uma aplicação recebeu dados de um sensor - por exemplo 200 mil leituras - e sabemos que existem erros nessas leituras.
Como faremos para criar uma máscara, se esses erros estão espalhados por esses 200 mil itens? É impraticável criar manualmente uma máscara para esses itens todos.
Com o proceder nesse caso?
Se os valores de erros forem valores padronizados, por exemplo sempre uma marcação com um número específico, então podemos passar esse valor para o masked array para ser usado como máscara.
Por exemplo, digamos que sempre que aparece o número -1 se trata de um erro de leitura. Então, passamos o número -1 para o masked array; desta forma, sempre que aparecer o valor -1 no array original ele será tratado como valor inválido.

Ou seja, em vez de informar que dados em posições específicas são ausentes ou inválidos, informamos que os dados com *valores* específicos é que são inválidos.

Vejamos um exemplo.

In [16]:
import numpy as np
import numpy.ma as ma

# Valor inválido nas leituras: -1
leitura = [2,5,-1,7,8,3,-1,9,12,15,-1,3,5,7,2,3,-1,2]
print('Dados lidos (com erros):\n',leitura)
print('\Média dos valores com erros: ',np.mean(leitura))

# Criar masked array informando que valores -1 são inválidos
leituraM = ma.masked_values(leitura, -1)
print('\nDados com erros marcados:\n',leituraM)
print('\Média dos valores sem erros: ',np.mean(leituraM))

Dados lidos (com erros):
 [2, 5, -1, 7, 8, 3, -1, 9, 12, 15, -1, 3, 5, 7, 2, 3, -1, 2]
\Média dos valores com erros:  4.388888888888889

Dados com erros marcados:
 [2 5 -- 7 8 3 -- 9 12 15 -- 3 5 7 2 3 -- 2]
\Média dos valores sem erros:  5.928571428571429


## Preecnher entradas inválidas

Podemos preencher (ou substituir) os valores nas entradas inválidas em um masked array por um valor padrão por meio do método filled().

Vamos a um exemplo.

In [30]:
# Preencher entradas inválidas com valor padrão

import numpy as np
import numpy.ma as ma

N = [2,5,-1,7,8,3,-1,9,12,15,-1,3,5,7,2,3,-1,2]
# O valor -1 é considerado inválido aqui. O correto deveria ser 1 (positivo). Vamos criar uma máscara para marcá-los:
Nm = ma.masked_values(N, -1)
print('Dados com valores inválidos marcados:\n', Nm)
# Vamos somar os valores do array para totalizá-lo:
print('Soma: ',np.sum(Nm))

# Vamos agora substituir os valores inválidos marcados por um (1):
Nm = Nm.filled(1)
print('\nDados com valores inválidos preenchidos:\n', Nm)

# Podemos agora realizar uma operação como a soma (totalização) do array 
# com a aplicação dos valores preenchidos:
print('Soma: ',np.sum(Nm))

Dados com valores inválidos marcados:
 [2 5 -- 7 8 3 -- 9 12 15 -- 3 5 7 2 3 -- 2]
Soma:  83

Dados com valores inválidos preenchidos:
 [ 2  5  1  7  8  3  1  9 12 15  1  3  5  7  2  3  1  2]
Soma:  87
