## Masked Arrays - Dealing with nodata

Masked arrays are similar to regular arrays but provide additional functionality related to nodata values.  Because the AVIRIS data is _skewed_ (the bounds of the data do not follow grid lines) there is a lot of nodata present and it might often be convenient to work with masked arrays.  The downside of masked arrays is that not every function available to a regular ndarray is available for masked arrays and also keeping track of both the data and the mask can be an added layer of complication.

In [1]:
import rasterio

In [2]:
filepath_h2o = '../input_data/f150131t01p00r10_refl/f150131t01p00r10_h2o_v1'
filepath_img = '../input_data/f170508t01p00r11rdn_e/f170508t01p00r11rdn_e_sc01_ort_img'

In [3]:
with rasterio.open(filepath_img, 'r') as src:
    red = src.read(2)
    h2o = src.read(1)

In [4]:
red

array([[-50, -50, -50, ..., -50, -50, -50],
       [-50, -50, -50, ..., -50, -50, -50],
       [-50, -50, -50, ..., -50, -50, -50],
       ...,
       [-50, -50, -50, ..., -50, -50, -50],
       [-50, -50, -50, ..., -50, -50, -50],
       [-50, -50, -50, ..., -50, -50, -50]], dtype=int16)

### Parts of a masked array

First let's create the masked array.

In [5]:
import numpy.ma as ma

We can see our original matrix in the `data` attribute.  The `mask` attribute, if True, is also an array which specifies only if the data is valid or not.  The `fill_value` is the same as the nodata value.

In [6]:
masked_red = ma.masked_where(red == -50, red)
ma.set_fill_value(masked_red, -50)

In [7]:
masked_red

masked_array(
  data=[[--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --],
        ...,
        [--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --]],
  mask=[[ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        ...,
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True]],
  fill_value=-50,
  dtype=int16)

### Exploratory statistics and matrix operations on a masked array

In [8]:
# Comparing exploratory statistics
print('min numpy: ', red.min())
print('min masked: ', masked_red.min())
print('max numpy: ', red.max())
print('max masked: ', masked_red.max())
print('mean numpy: ', red.mean())
print('mean masked: ', masked_red.mean())

min numpy:  -50
min masked:  1993
max numpy:  6028
max masked:  6028
mean numpy:  1195.9502716493141
mean masked:  3788.951364339283


In [9]:
masked_h2o = ma.masked_where(h2o == -50, h2o)
ma.set_fill_value(masked_h2o, -50)

In [10]:
masked_h2o + masked_red

masked_array(
  data=[[--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --],
        ...,
        [--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --],
        [--, --, --, ..., --, --, --]],
  mask=[[ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        ...,
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True]],
  fill_value=-50,
  dtype=int16)