In [2]:
import numpy as np

## Array boolean 인덱싱(Mask)

- 다차원의 인덱싱을 응용하여 boolean 인덱싱
- boolean인덱싱을 통해 만들어낸 array를 통해 원하는 행 또는 열의 값만 뽑아냄
- 가리고 싶은 부분은 가리고, 원하는 요소만 꺼냄


In [3]:
names = np.array(['Beomwoo','Beomwoo','Kim','Joan','Lee','Beomwoo',
                  'Park','Beomwoo'])
names

array(['Beomwoo', 'Beomwoo', 'Kim', 'Joan', 'Lee', 'Beomwoo', 'Park',
       'Beomwoo'], dtype='<U7')

In [4]:
# names 크기 확인
names.shape

(8,)

In [5]:
# 8행4열의 실수 난수 배열 생성
data = np.random.randn(8,4)
data

array([[-0.59493614, -1.81645913,  0.39139576, -0.74358207],
       [-0.03830686,  1.30438593,  0.64288495, -1.71735461],
       [-0.66702193, -0.60055256, -0.77279132, -0.67898081],
       [ 0.17444275, -1.66904272, -0.92236973,  0.621835  ],
       [-0.40009638, -0.52883047, -2.04329296,  0.95061065],
       [-0.26481888, -0.17308823,  0.05581522,  0.45541885],
       [-0.12085206, -0.4950445 ,  0.16843266,  0.19210381],
       [ 0.43798118,  0.53921949,  1.09935091, -0.20250988]])

In [6]:
# 배열 크기 확인
data.shape

(8, 4)

In [7]:
# 요소가 Beomwoo인 항목에 대한 mask 생성
names_mask_Beomwoo=(names == 'Beomwoo')
names_mask_Beomwoo

array([ True,  True, False, False, False,  True, False,  True])

In [8]:
# 요소가 Beomwoo인 항목의 위치와 같은 행의 자료 가져오기
data[names_mask_Beomwoo, :]
# data[names_mask_Beomwoo] : 같은 결과

array([[-0.59493614, -1.81645913,  0.39139576, -0.74358207],
       [-0.03830686,  1.30438593,  0.64288495, -1.71735461],
       [-0.26481888, -0.17308823,  0.05581522,  0.45541885],
       [ 0.43798118,  0.53921949,  1.09935091, -0.20250988]])

In [9]:
# 요소가 Kim인 행의 데이터만 꺼내기
data[names=='Kim',:]

array([[-0.66702193, -0.60055256, -0.77279132, -0.67898081]])

In [10]:
# 논리 연산을 응용하여, 요소가 Kim 또는 Park인 행의 데이터만 꺼내기
data[(names == 'Kim') | (names == 'Park')]

array([[-0.66702193, -0.60055256, -0.77279132, -0.67898081],
       [-0.12085206, -0.4950445 ,  0.16843266,  0.19210381]])

**마스크 인덱싱 문제**

- 문제1. data array에서 0번째 열이 0보다 작은 행 데이터 가져오기

In [12]:
# 1단계. 마스크를 만든다.
#       data array에서 0번째 열이 0보다 작은 요소의
#       boolean 값을 선택하기 위하 마스크

In [13]:
data[:,0] < 0

array([ True,  True,  True, False,  True,  True,  True, False])

In [14]:
# 2단계. 생성된 마스크를 이용하여 0번째 열의 값이 0보다 작은 행을 구한다.
data[data[:,0]<0]

array([[-0.59493614, -1.81645913,  0.39139576, -0.74358207],
       [-0.03830686,  1.30438593,  0.64288495, -1.71735461],
       [-0.66702193, -0.60055256, -0.77279132, -0.67898081],
       [-0.40009638, -0.52883047, -2.04329296,  0.95061065],
       [-0.26481888, -0.17308823,  0.05581522,  0.45541885],
       [-0.12085206, -0.4950445 ,  0.16843266,  0.19210381]])

In [15]:
# - 문제2. data array에서 0번째 열이 0보다 작은 행의 2, 3번째 열 데이터 가져오기

In [16]:
# 1. 마스크 생성 : 0번째 열의 값이 0보다 작은 행의 2,3번째 열 값
# data[data[:,0]<0][:, 2:4]
# data[data[:,0]<0, 2:4]
mask = data[:,0]<0
mask

array([ True,  True,  True, False,  True,  True,  True, False])

In [17]:
# 2. 생성된 마스크로 데이터 가져오기
data[mask, 2:4]

array([[ 0.39139576, -0.74358207],
       [ 0.64288495, -1.71735461],
       [-0.77279132, -0.67898081],
       [-2.04329296,  0.95061065],
       [ 0.05581522,  0.45541885],
       [ 0.16843266,  0.19210381]])

## array에 적용되는 다양한 함수

### 하나의 array에 적용되는 함수

**random.randn(d0,d1,.., dn) : 표준정규난수 생성**

: https://numpy.org/doc/stable/reference/random/legacy.html

In [19]:
# 5행3열의 실수난수 배열 생성
data = np.random.randn(5,3)
data

array([[ 1.04431683, -0.824588  , -0.05716404],
       [ 0.84754426, -0.35683171, -0.02107906],
       [ 1.06435734,  0.18702228, -0.23734257],
       [-0.15377634,  0.04144372,  1.19510269],
       [ 0.59566772, -1.08111703, -0.43365364]])

**수학 관련 함수**

- 제곱근, 절대값, 삼각함수, 지수로그함수, 반올림함수 등

https://numpy.org/doc/stable/reference/routines.math.html

In [20]:
# 각 성분의 절대값 계산하기
np.abs(data)

array([[1.04431683, 0.824588  , 0.05716404],
       [0.84754426, 0.35683171, 0.02107906],
       [1.06435734, 0.18702228, 0.23734257],
       [0.15377634, 0.04144372, 1.19510269],
       [0.59566772, 1.08111703, 0.43365364]])

In [21]:
# 각 성분의 제곱근 계산하기 : data**0.5
np.sqrt(np.abs(data))

array([[1.02191821, 0.90806828, 0.23909002],
       [0.92062167, 0.59735392, 0.1451863 ],
       [1.03167696, 0.43246073, 0.48717817],
       [0.39214326, 0.2035773 , 1.09320753],
       [0.77179513, 1.03976778, 0.65852383]])

In [22]:
# 각 성분의 제곱 계산하기
np.square(data)

array([[1.09059765e+00, 6.79945363e-01, 3.26772713e-03],
       [7.18331271e-01, 1.27328869e-01, 4.44326791e-04],
       [1.13285655e+00, 3.49773335e-02, 5.63314952e-02],
       [2.36471620e-02, 1.71758154e-03, 1.42827045e+00],
       [3.54820034e-01, 1.16881403e+00, 1.88055478e-01]])

**지수함수**

In [23]:
# 각 성분을 자연대수 e의 지수로 삼은 값을 계산하기 : e^x
np.exp(data)

array([[2.84145668, 0.43841558, 0.94443913],
       [2.33390833, 0.69989027, 0.97914155],
       [2.89897534, 1.20565415, 0.78872105],
       [0.85746378, 1.04231449, 3.30389704],
       [1.81424195, 0.3392164 , 0.64813671]])

**로그함수**

- 자연로그 : log()
- 상용로그 : log10()
- 밑이2인 로그 : log2()

In [24]:
# 자연로그
np.log(abs(data))

array([[ 0.04336292, -0.19287142, -2.8618303 ],
       [-0.16541222, -1.03049101, -3.85947513],
       [ 0.06237118, -1.67652752, -1.43825074],
       [-1.87225609, -3.18341903,  0.17823212],
       [-0.51807228,  0.07799479, -0.83550913]])

In [25]:
# 상용로그
np.log10(abs(data))

array([[ 0.01883228, -0.08376299, -1.24287711],
       [-0.07183761, -0.44753656, -1.67614875],
       [ 0.02708746, -0.72810665, -0.62462436],
       [-0.81311049, -1.38254132,  0.07740523],
       [-0.22499593,  0.03387271, -0.36285701]])

In [26]:
# 밑이 2인 로그
np.log2(abs(data))

array([[ 0.06255948, -0.27825464, -4.12874838],
       [-0.23863939, -1.48668427, -5.56804562],
       [ 0.0899826 , -2.41871794, -2.07495721],
       [-2.70109457, -4.59270285,  0.25713459],
       [-0.74742031,  0.1125227 , -1.20538488]])