掩膜数组（masked array）是Numpy中一类特殊的array，其可以屏蔽Numpy中的无效数据（从而不参与相关计算），同时保留了传统ndarray中的大部分函数接口

In [4]:
import numpy as np

In [5]:
# masked_array有三个基本属性
"""
data和ndarray一样，表示数组数值
mask屏蔽参数，True表示哪些数据需要掩膜
fill_value表示在需要时用什么数填充掩膜元素
"""
arr = np.ma.array([1,2,3])
arr

masked_array(data=[1, 2, 3],
             mask=False,
       fill_value=999999)

In [7]:
"""
ma.array其实是MaskedArray的shortcut，
MaskedArray(data, mask=nomask, dtype=None, copy=False, subok=True,
                      ndmin=0, fill_value=None, keep_mask=True, hard_mask=None,
                      shrink=True, order=None)
subok：是否作为MaskedArray的子类返回
hard_mask： 若True，无法将mask含元素进行usetmask操作
shrink：是否能对mask元素进行缩减   


MaskedArray集成了ndarray，所以可以访问ndarray的所有函数, 其索引或者切片的视图性等特性也被继承
"""
print(" ")

 


In [9]:
# 逐元素设定mask,可以用bool值，或者用0-1值
arr = np.ma.array([1,2,3,4,5], mask=[0,0,0,1,0])
arr

masked_array(data=[1, 2, 3, --, 5],
             mask=[False, False, False,  True, False],
       fill_value=999999)

In [10]:
# 此时的相关操作均为MaskedArray的，即不考虑掩膜元素的
arr.mean()  # (1+2+3+5)/4=2.75

2.75

In [11]:
# 通过掩膜操作，可以快速访问相关数据(类似于布尔索引)
arr = np.ma.array([[1,2], [3,4]], mask=[[0, 0], [1, 0]])
print(arr)
print(arr[arr.mask])
print(arr[~arr.mask])

[[1 2]
 [-- 4]]
[--]
[1 2 4]


In [14]:
# 对掩膜数组进行shrink操作
arr.compressed()

array([1, 2, 4])

In [16]:
# 通过修改mask属性，修改元素的mask
arr = np.ma.array([[1,2], [3,4]], mask=[[0, 0], [1, 0]])
arr.mask = False
arr

masked_array(
  data=[[1, 2],
        [3, 4]],
  mask=[[False, False],
        [False, False]],
  fill_value=999999)

In [17]:
# 或者直接赋值为np.ma.nomask
arr = np.ma.array([[1,2], [3,4]], mask=[[0, 0], [1, 0]])
arr.mask = np.ma.nomask
arr

masked_array(
  data=[[1, 2],
        [3, 4]],
  mask=[[False, False],
        [False, False]],
  fill_value=999999)