In [1]:
import numpy as np

scores = np.array([[97, 78, 43, 53], [78, 65, 57, 68], [100, 98, 36, 59], [35, 50, 7, 46]])
scores

array([[ 97,  78,  43,  53],
       [ 78,  65,  57,  68],
       [100,  98,  36,  59],
       [ 35,  50,   7,  46]])

#### Q9. 각 과목별로 과목명과 50점 이상 점수들을 출력하는 코드를 아래 셀에 작성하시오. 

* 기존에 선언한 scores 배열을 사용

||A|B|C|D|
|--|--|--|--|--|
|국어|97|78|43|53|
|영어|78|65|57|68|
|수학|100|98|36|59|
|탐구|35|50|7|46|

In [132]:
Q9 = np.array(['국어', '영어', '수학', '탐구'])

for i, title in enumerate(Q9):
    print(title, scores[i, scores[i] >= 50])

국어 [97 78 53]
영어 [78 65 57 68]
수학 [100  98  59]
탐구 [50]


## Missing Value

* 공부를 위해 사용하는 학습용 데이터가 아닌 실제 문제를 해결하기 위해 사용되는 데이터는 결측치들(missing value)이 존재한다.
* 이러한 결측치는 분석 결과에 영향을 미치므로 적절하게 처리하는 것이 중요하다.
* 결측치 처리 방식은 일반적으로 다음과 같다.
    * 결측치가 존재하는 행 혹은 열 삭제
    * 중앙값, 평균, 최빈값 혹은 특정값으로 대체

In [76]:
data = np.array([[97, 78, 43, np.nan], [78, np.nan, 57, 68], [100, np.nan, np.nan, 59], [35, 50, 7, 46]])
data

array([[ 97.,  78.,  43.,  nan],
       [ 78.,  nan,  57.,  68.],
       [100.,  nan,  nan,  59.],
       [ 35.,  50.,   7.,  46.]])

In [77]:
data

array([[ 97.,  78.,  43.,  nan],
       [ 78.,  nan,  57.,  68.],
       [100.,  nan,  nan,  59.],
       [ 35.,  50.,   7.,  46.]])

### Missing value check

* np.isnan()을  사용하여 결측치를 찾아낼 수 있음
* any()를 사용하면 축에 따라 하나라도 결측치가 존재하면 True를 반환, 아니라면 False를 반환
* all()을 사용하면 축에 따라 모두 결측치가 존재하면 True를 반환, 아니라면 False를 반환

In [78]:
np.isnan(data)

array([[False, False, False,  True],
       [False,  True, False, False],
       [False,  True,  True, False],
       [False, False, False, False]])

In [79]:
print(np.isnan(data).any(axis=1))
print(np.isnan(data).any(axis=0))

[ True  True  True False]
[False  True  True  True]


In [80]:
print(np.isnan(data).all(axis=1))
print(np.isnan(data).all(axis=0))

[False False False False]
[False False False False]


### Missing value replacement

* np.nan_to_num(nan = 0)을 이용해서 결측치를 숫자로 대체
    * 기본값은 0

In [81]:
temp_data = np.nan_to_num(data)
temp_data

array([[ 97.,  78.,  43.,   0.],
       [ 78.,   0.,  57.,  68.],
       [100.,   0.,   0.,  59.],
       [ 35.,  50.,   7.,  46.]])

In [82]:
np.nan_to_num(data, nan = -2)

array([[ 97.,  78.,  43.,  -2.],
       [ 78.,  -2.,  57.,  68.],
       [100.,  -2.,  -2.,  59.],
       [ 35.,  50.,   7.,  46.]])

#### Median

* 중앙값 대체
* 결측치가 존재할 때 중앙값을 계산할 수 없으므로 np.nanmedian()를 사용하여 결측치를 무시하고 중앙값을 구할 수 있음

In [83]:
median = np.median(temp_data)
median

48.0

In [84]:
np.nan_to_num(data, nan = median)

array([[ 97.,  78.,  43.,  48.],
       [ 78.,  48.,  57.,  68.],
       [100.,  48.,  48.,  59.],
       [ 35.,  50.,   7.,  46.]])

In [85]:
np.nanmedian(data)

58.0

In [86]:
np.nan_to_num(data, nan = np.nanmedian(data))

array([[ 97.,  78.,  43.,  58.],
       [ 78.,  58.,  57.,  68.],
       [100.,  58.,  58.,  59.],
       [ 35.,  50.,   7.,  46.]])

#### Mean

* 평균값 대체
* 결측치가 존재할 때 평균을 계산할 수 없으므로 np.nanmean()를 사용하여 결측치를 무시하고 평균을 구할 수 있음

In [87]:
mean = np.mean(temp_data)
mean

44.875

In [88]:
np.nan_to_num(data, nan = mean)

array([[ 97.   ,  78.   ,  43.   ,  44.875],
       [ 78.   ,  44.875,  57.   ,  68.   ],
       [100.   ,  44.875,  44.875,  59.   ],
       [ 35.   ,  50.   ,   7.   ,  46.   ]])

In [89]:
np.nanmean(data)

59.833333333333336

In [90]:
np.nan_to_num(data, nan = np.nanmean(data))

array([[ 97.        ,  78.        ,  43.        ,  59.83333333],
       [ 78.        ,  59.83333333,  57.        ,  68.        ],
       [100.        ,  59.83333333,  59.83333333,  59.        ],
       [ 35.        ,  50.        ,   7.        ,  46.        ]])

#### Q10. 다음과 같이 결측치를 가지는 임의의 데이터가 주어졌을 때, 결측치를 각 열에 대한 중앙값으로 대체하는 구하는 코드를 아래 셀에 작성하시오. 

* 0열에 대한 결측치는 0열에 대한 중앙값을 구하여 대체, 1열에 대한 결측치는 1열에 대한 중앙값을 구하여 대체하라는 의미
1. 주어진 데이터를 확인
    * 임의로 생성한 데이터이므로 사람마다 다른 데이터를 가짐
2. 값을 대체하기 전에 생성된 중앙값을 확인

In [91]:
idx = np.random.choice(20, 7, replace = False)
Q10 = np.random.randint(1, 100, (25, )).astype('float')  # 데이터 자료형이 float일 때 결측치 삽입 가능, 정수형 배열을 실수형 배열로 변환
Q10[idx] = np.nan
Q10 = Q10.reshape(5, 5)

In [92]:
### Your Code ###

In [133]:
Q10

array([[nan, nan,  4., 41., 63.],
       [17., 74., 87., nan, nan],
       [62., 30., 67., 32., 80.],
       [nan, 18., nan, nan, 38.],
       [53., 53., 22., 13., 87.]])

In [136]:
np.nanmedian(Q10, axis=0)

array([53. , 41.5, 44.5, 32. , 71.5])

In [139]:
Q10 = np.nan_to_num(Q10, nan = np.nanmedian(Q10, axis=0))
Q10

array([[53. , 41.5,  4. , 41. , 63. ],
       [17. , 74. , 87. , 32. , 71.5],
       [62. , 30. , 67. , 32. , 80. ],
       [53. , 18. , 44.5, 32. , 38. ],
       [53. , 53. , 22. , 13. , 87. ]])