In [2]:
import numpy as np

scores = np.array([[97,78,43,53],
                   [78,65,57,68],
                   [100,98,36,59],
                   [35,50,7,46]])
scores

array([[ 97,  78,  43,  53],
       [ 78,  65,  57,  68],
       [100,  98,  36,  59],
       [ 35,  50,   7,  46]])

In [3]:
np.bincount(scores.reshape(-1))

array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1], dtype=int64)

In [10]:
Q9 = np.array(['국어','영어','수학','탐구'])

for i, title in enumerate(Q9):
    print(title, scores[i, scores[i] >= 50])

국어 [97 78 53]
영어 [78 65 57 68]
수학 [100  98  59]
탐구 [50]


# Missing Value

* 학생용 데이터가 아닌 실제 문제를 해결하기 위해 사용되는 데이터는 결측지가 존재
* 이러한 결측치 처리는 분석 결과에 영향을 미친다.
    * 적절히 처리하는 것이 중요
* 처리 방법
    * 결측치가 존재하는 행이나 열 자체를 삭제한다.
    * 중앙값, 평균, 최빈값 혹은 특정값으로 대체 

In [12]:
data = np.array([[97,78,43,np.nan],
                 [78,np.nan,57,68],
                 [100,np.nan,np.nan,59],
                 [35,50,7,46]])
data 

array([[ 97.,  78.,  43.,  nan],
       [ 78.,  nan,  57.,  68.],
       [100.,  nan,  nan,  59.],
       [ 35.,  50.,   7.,  46.]])

In [13]:
np.isnan(data)

array([[False, False, False,  True],
       [False,  True, False, False],
       [False,  True,  True, False],
       [False, False, False, False]])

In [15]:
np.isnan(data).any(axis=1)

array([ True,  True,  True, False])

In [16]:
np.isnan(data).any(axis=0)

array([False,  True,  True,  True])

In [17]:
np.isnan(data).all(axis=1)

array([False, False, False, False])

# Missing Value Replacement  

In [18]:
temp = np.nan_to_num(data)
temp

array([[ 97.,  78.,  43.,   0.],
       [ 78.,   0.,  57.,  68.],
       [100.,   0.,   0.,  59.],
       [ 35.,  50.,   7.,  46.]])

In [19]:
np.nan_to_num(data,nan=27)


array([[ 97.,  78.,  43.,  27.],
       [ 78.,  27.,  57.,  68.],
       [100.,  27.,  27.,  59.],
       [ 35.,  50.,   7.,  46.]])

* 중앙값으로 처리 (Median)

In [21]:
median = np.median(temp)
median

48.0

In [22]:
temp = np.nan_to_num(data, nan=median)
temp

array([[ 97.,  78.,  43.,  48.],
       [ 78.,  48.,  57.,  68.],
       [100.,  48.,  48.,  59.],
       [ 35.,  50.,   7.,  46.]])

In [23]:
np.nan_to_num(data, nan=np.nanmedian(data))

array([[ 97.,  78.,  43.,  58.],
       [ 78.,  58.,  57.,  68.],
       [100.,  58.,  58.,  59.],
       [ 35.,  50.,   7.,  46.]])

In [29]:

temp2 = np.nan_to_num(data, nan=np.nanmean(data))
temp2

array([[ 97.        ,  78.        ,  43.        ,  59.83333333],
       [ 78.        ,  59.83333333,  57.        ,  68.        ],
       [100.        ,  59.83333333,  59.83333333,  59.        ],
       [ 35.        ,  50.        ,   7.        ,  46.        ]])