In [1]:
import numpy as np

In [2]:
data = np.random.randint(0,10,size=(3,5))
data

array([[0, 6, 8, 0, 9],
       [3, 8, 8, 1, 6],
       [1, 8, 7, 1, 6]])

In [3]:
data = data.astype(np.float)
data[0,1] = np.NAN
data

array([[ 0., nan,  8.,  0.,  9.],
       [ 3.,  8.,  8.,  1.,  6.],
       [ 1.,  8.,  7.,  1.,  6.]])

In [4]:
data/0

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([[nan, nan, inf, nan, inf],
       [inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf]])

In [5]:
np.NAN == np.NAN

False

In [6]:
data[0,1]*2

nan

In [7]:
data[1,2] = np.NAN
data

array([[ 0., nan,  8.,  0.,  9.],
       [ 3.,  8., nan,  1.,  6.],
       [ 1.,  8.,  7.,  1.,  6.]])

In [8]:
#  此时的data会没有nan，并且变成一个1维数组
# 返回不包含 NaN 值的数组，也就是过滤掉了包含 NaN 的元素
data[~np.isnan(data)] 

array([0., 8., 0., 9., 3., 8., 1., 6., 1., 8., 7., 1., 6.])

In [9]:
# 获取哪些行有NAN
lines = np.where(np.isnan(data))[0]
# 使用delete方法删除指定的行,axis=0表示删除行，lines表示删除的行号
np.delete(data,lines,axis=0)

array([[1., 8., 7., 1., 6.]])

In [10]:
scores = np.loadtxt("nan_scores.csv",delimiter=",",skiprows=1,encoding="utf-8",dtype=np.str)
scores[scores == ""] = np.NAN
scores1 = scores.astype(np.float)
# 将NAN替换为0
scores1[np.isnan(scores1)] = 0
# 除了delete用axis=0表示行以外，其他的大部分函数都是axis=1来表示行。
scores1.sum(axis=1)

array([148. , 122. , 123.5,  34. ,  56. ,  79. ])

In [11]:
scores2 = scores.astype(np.float)
for x in range(scores2.shape[1]):
    col = scores2[:,x]
    non_nan_col = col[~np.isnan(col)]
    mean = non_nan_col.mean()
    col[np.isnan(col)] = mean
scores2

array([[59. , 89. ],
       [90. , 32. ],
       [78. , 45.5],
       [34. , 55.7],
       [56.8, 56. ],
       [23. , 56. ]])

# 总结：
1. NAN：Not A Number的简写，不是一个数字，但是他是属于浮点类型。
2. INF：无穷大，在除数为0的情况下会出现INF。
3. NAN和所有的值进行计算结果都是等于NAN
4. NAN != NAN
5. 可以通过np.isnan来判断某个值是不是NAN。
6. 处理值的时候，可以通过删除NAN的形式进行处理，也可以通过值的替换进行处理。
7. np.delete比较特殊，他通过axis=0来代表行，而其他大部分函数是通过axis=1来代表行。