<a href="https://colab.research.google.com/github/rioluvy/Data-analysis-and-visualization/blob/main/Encapsulation/M3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
## MO3 - Numpy 배열 마스킹

In [None]:
import numpy as np

In [None]:
## Masking: 불필요한 것들을 걸러내고 배열의 특정 부분만 표시하는 것
## 일반적으로 마스크의 값들은 boolean자료형으로 구성하며, 마스크의 원소값이 True면 대응되는 원본배열의 원소를 가져오고 False면 걸러내는 방식을 취한다.
## 대량의 데이터를 사용할 때 특정 데이터만 추출하고자 하면 반복문보다는 마스킹 기법이 효율적으로 작동될 수 있다.

In [None]:
my_first_mask = np.array([True, False, True, False])
my_second_mask = np.array([1,0,1,0], dtype = bool)
print(my_first_mask)
print(my_second_mask) ## my_first_mask와 동치
print()
sample_arr = np.arange(12).reshape(4,3)
print(sample_arr)
print(sample_arr[my_first_mask]) #(4,3) (4,) shape 성립, 마스크의 정보에 따라 0행과 2행만을 가져와 새로운 배열을 만듦.

[ True False  True False]
[ True False  True False]

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[0 1 2]
 [6 7 8]]


In [None]:
## 마스크의 shape은 기존 배열의 shape의 차원 '앞'에서부터 대응이 되어야 한다. 기존 배열의 shape의 차원 앞에서부터 축의 길이가 동일해야 한다. (마스크 배열 사이즈 <= 기존 배열 사이즈)
## shape이 맞지 않는 경우 IndexError가 발생한다.

mask1 = np.array([[True,False,True],[True,False,True],[True,False,True],[True,False,True]])
print(sample_arr[mask1]) # (4,3) (4,3) 성립, 완전히 shape이 같기 때문에 element-wise로 수행
print(type(sample_arr[mask1]))
print()

mask2 = mask1.flatten() # mask1배열을 1D로 변경 = (12,)
print(mask2)
# print(sample_arr[mask2]) #IndexError

[ 0  2  3  5  6  8  9 11]
<class 'numpy.ndarray'>

[ True False  True  True False  True  True False  True  True False  True]


In [None]:
## ndarray 배열 객체에 ~를 접두하면 내부 원소들에 비트 연산 NOT을 수행한다.
## 이 점을 활용하여 마스크 배열 앞에 ~를 접두하여 마스크의 False 데이터만 추출할 수 있다.
print(~np.array([True]))
print(~np.array([False]))
print(sample_arr[my_first_mask])
print("-----------1----------")
print(sample_arr[~my_first_mask])
print("-----------2----------")
print(~sample_arr[my_first_mask]) # int값 자체에 NOT연산 수행
print("-----------3----------")

## 마스크 내부 원소 값들을 int자료형으로 구성할 수도 있다. 다만 작동하는 방식은 bool자료형과 다르게 작동하는데 원소값은 행의 인덱스 값으로 인식이 된다.
int_mask = np.array([1,0,1,0],dtype = int) # 1행, 0행, 1행, 0행
print(sample_arr)
print("-----------4----------")
print(sample_arr[int_mask])

[False]
[ True]
[[0 1 2]
 [6 7 8]]
-----------1----------
[[ 3  4  5]
 [ 9 10 11]]
-----------2----------
[[-1 -2 -3]
 [-7 -8 -9]]
-----------3----------
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
-----------4----------
[[3 4 5]
 [0 1 2]
 [3 4 5]
 [0 1 2]]


In [None]:
## 매번 배열들에 대응되는 마스크 값을 일일히 지정할 수가 없다.
## 배열들의 데이터를 필터링 하는 기준이 있을테니 이를 활용하는 것이 좋은 방식
## 원본 배열에서 각종 연산을 거쳐서 이를 마스크 배열로써 활용해보자.
print(sample_arr)
print("--------------------")
print(sample_arr[sample_arr >= 5])
print("--------------------")
print(sample_arr[sample_arr%2 == 0])

## sample_arr와 똑같은 shape이지만 부등호에 따라 T,F로 마스크 배열을 논리적으로 생성

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
--------------------
[ 5  6  7  8  9 10 11]
--------------------
[ 0  2  4  6  8 10]


In [None]:
arr = np.array([1.7,0,False,True])
arr += arr-arr.astype(int)>=0.5
arr2 = arr[arr.astype(int)]

print(arr+arr2)

[2.7 2.7 2.7 1. ]


In [None]:
diagonal_mask = (np.eye(5) == 1)
print(diagonal_mask)

[[ True False False False False]
 [False  True False False False]
 [False False  True False False]
 [False False False  True False]
 [False False False False  True]]


In [None]:
arr = np.arange(1,26).reshape(5,5)
arr[~diagonal_mask] = 0
print(arr)

[[ 1  0  0  0  0]
 [ 0  7  0  0  0]
 [ 0  0 13  0  0]
 [ 0  0  0 19  0]
 [ 0  0  0  0 25]]
