###### 블린 인덱싱 (Boolean Indexing)

In [1]:
import numpy as np
def pprint(arr):
    print("type:{}".format(type(arr)))
    print("shape: {}, dimension: {}, dtype:{}".format(arr.shape, arr.ndim, arr.dtype))
    print("Array's Data:\n", arr)

In [3]:
a1 = np.arange(1,25).reshape((4,6))
pprint(a1)

type:<class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype:int32
Array's Data:
 [[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [4]:
even_arr = a1 % 2 ==0
pprint(even_arr)

type:<class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype:bool
Array's Data:
 [[False  True False  True False  True]
 [False  True False  True False  True]
 [False  True False  True False  True]
 [False  True False  True False  True]]


In [5]:
a1[even_arr]

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24])

In [6]:
np.sum(a1)

300

##### Boolean Indexing 응용

In [10]:
# head -n 3 ./seattle2014.csv

In [13]:
import pandas as pd
rains_in_seattle = pd.read_csv("./Seattle2014.csv")
rains_arr = rains_in_seattle['PRCP'].values
print("Data Size : ", len(rains_arr))

Data Size :  365


In [15]:
# 날짜 배열
days_arr = np.arange(0,365)

# 1월의 날 수 boolean index 생성
condition_jan = days_arr < 31

# 40일 조회
condition_jan[:40]

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False])

In [16]:
# 1월의 강수량 추출 (31일)
rains_jan = rains_arr[condition_jan]

# 1월 강수량 데이터 수
len(rains_jan)

31

In [17]:
# 1월 강수량 총합
np.sum(rains_jan)

940

In [18]:
# 1월 평균 강수량
np.mean(rains_jan)

30.322580645161292

###### 실습 예제

In [50]:
import pandas as pd
import numpy as np
rains_in_seattle = pd.read_csv("./Seattle2014.csv")
rains_arr = rains_in_seattle['PRCP'].values
rains_arr = rains_arr[:360] # 매달 30일로 가정

month = int(input("검색할 월(month) 입력 : "))
while month not in range(1,13):
    month = int(input("1 ~ 12월 사이의 월(month)을 입력해주세요 : "))
start_idx = (month - 1) * 30
end_idx = month * 30

# 해당 월 강수량 추출 (30일)
rains_month = rains_arr[ start_idx : end_idx ]

# 해당 월 강수량 데이터 수
print("{}월 강수량 데이터 수 : ".format(month), len(rains_month))

# 해당 월 강수량 총합
print("{}월 강수량 총합 : ".format(month), np.sum(rains_month))

# 해당 월 평균 강수량
print("{}월 평균 강수량: ".format(month), np.mean(rains_month))


검색할 월(month) 입력 : 13
1 ~ 12월 사이의 월(month)을 입력해주세요 : 14
1 ~ 12월 사이의 월(month)을 입력해주세요 : 15
1 ~ 12월 사이의 월(month)을 입력해주세요 : 20
1 ~ 12월 사이의 월(month)을 입력해주세요 : 0
1 ~ 12월 사이의 월(month)을 입력해주세요 : 1
1월 강수량 데이터 수 :  30
1월 강수량 총합 :  917
1월 평균 강수량:  30.566666666666666


###### 팬시 인덱싱 (Fancy Indexing)

In [51]:
arr = np.arange(1,25).reshape((4,6))
pprint(arr)

type:<class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype:int32
Array's Data:
 [[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [53]:
[arr[0, 0], arr[1, 1], arr[2, 2], arr[3, 3]]

[1, 8, 15, 22]

In [55]:
arr[[0, 1, 2, 3], [0, 1, 2, 3]] # 두 배열을 전달

array([ 1,  8, 15, 22])

In [56]:
# 전체 행에 대해서 1, 2번 열 참조
arr[:,[1, 2]]

array([[ 2,  3],
       [ 8,  9],
       [14, 15],
       [20, 21]])

##### 배열 형태 변경

ravel() : shape을 1차원 배열로 변경 # 데이터 변경 시 원본에 영향을 끼침 (call by reference)           
reshape() : 데이터 변경 없이 지정된 shape으로 변경 (변경 시 데이터 개수 확인)

In [59]:
a = np.random.randint(1,10,(2,3))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[5 2 2]
 [8 2 3]]


In [60]:
a.ravel()

array([5, 2, 2, 8, 2, 3])

In [61]:
pprint(a)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[5 2 2]
 [8 2 3]]


In [62]:
b = a.ravel()
pprint(b)

type:<class 'numpy.ndarray'>
shape: (6,), dimension: 1, dtype:int32
Array's Data:
 [5 2 2 8 2 3]


In [63]:
b[0] = 99
pprint(b)

type:<class 'numpy.ndarray'>
shape: (6,), dimension: 1, dtype:int32
Array's Data:
 [99  2  2  8  2  3]


In [65]:
pprint(a) # b 배열의 데이터 변경이 a 행렬에 반영됨

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[99  2  2]
 [ 8  2  3]]


In [66]:
a = np.random.randint(1, 10, (2,3))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[4 8 5]
 [5 5 1]]


In [69]:
result = a.reshape((3,2,1)) # 데이터 shape 변경 시 데이터 개수 주의
pprint(result)

type:<class 'numpy.ndarray'>
shape: (3, 2, 1), dimension: 3, dtype:int32
Array's Data:
 [[[4]
  [8]]

 [[5]
  [5]]

 [[5]
  [1]]]


##### 배열 요소 추가 삭제

+ resize() : shape 변경하는 과정에서 배열 요소 수 증가 / 감소 시킬 수 있다.        
reshape()와의 차이점 : reshape()는 shape만 변경되고 배열 요소 수 변화 없음

In [70]:
a = np.random.randint(1,10,(2,6))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype:int32
Array's Data:
 [[9 2 5 6 5 6]
 [8 2 6 5 9 5]]


In [72]:
a.resize((6,2))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (6, 2), dimension: 2, dtype:int32
Array's Data:
 [[9 2]
 [5 6]
 [5 6]
 [8 2]
 [6 5]
 [9 5]]


In [76]:
# a.reshape((2,10)) # reshape는 배열 개수 증가될 수 없음
# pprint(a)

ValueError: cannot reshape array of size 9 into shape (2,10)

In [74]:
a.resize((2,10)) # 요소 수 증가 : 늘어난 요소는 0으로 채워짐
pprint(a)

type:<class 'numpy.ndarray'>
shape: (2, 10), dimension: 2, dtype:int32
Array's Data:
 [[9 2 5 6 5 6 8 2 6 5]
 [9 5 0 0 0 0 0 0 0 0]]


In [78]:
a.reshape((3,3)) # reshape는 배열 개수 증가될 수 없지만 감소될 경우 삭제됨
pprint(a)

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[9 2 5]
 [6 5 6]
 [8 2 6]]


In [80]:
a = np.random.randint(1,10,(2, 6))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype:int32
Array's Data:
 [[9 4 2 5 1 7]
 [9 4 3 3 6 7]]


In [81]:
a.resize((3,3)) # 요소 수 감소 : 줄어든 요소는 삭제됨
pprint(a)

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[9 4 2]
 [5 1 7]
 [9 4 3]]


##### 배열 추가

append() : 배열 끝에 배열 추가, axis로 배열 추가되는 방향 지정

In [83]:
a = np.arange(1,10).reshape(3,3)
pprint(a)
b = np.arange(10,19).reshape(3,3)
pprint(b)

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[10 11 12]
 [13 14 15]
 [16 17 18]]


+ axis 지정하지 않을 경우

In [84]:
result = np.append(a, b) # a배열 뒤에 b배열 추가하며 1차원 배열로 생성
pprint(result)

type:<class 'numpy.ndarray'>
shape: (18,), dimension: 1, dtype:int32
Array's Data:
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]


In [85]:
# 원본 배열 변경되는 것이 아닌 새로운 배열을 생성
pprint(a) 

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


axis = 0 지정

In [86]:
result = np.append(a, b, axis = 0) # axis 0 방향(아래)으로 b 배열 추가 
pprint(result)

type:<class 'numpy.ndarray'>
shape: (6, 3), dimension: 2, dtype:int32
Array's Data:
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]]


In [87]:
different_shape_arr = np.arange(10, 20).reshape(2, 5)
pprint(different_shape_arr)

type:<class 'numpy.ndarray'>
shape: (2, 5), dimension: 2, dtype:int32
Array's Data:
 [[10 11 12 13 14]
 [15 16 17 18 19]]


In [88]:
np.append(a, different_shape_arr, axis = 0)

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 3 and the array at index 1 has size 5

기준축 shape[0]을 제외한 나머지 shape이 다를 경우 에러 발생

In [91]:
pprint(a[1:])

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[4 5 6]
 [7 8 9]]


In [92]:
pprint(different_shape_arr[1:])

type:<class 'numpy.ndarray'>
shape: (1, 5), dimension: 2, dtype:int32
Array's Data:
 [[15 16 17 18 19]]


+ axis = 1 지정

In [93]:
result = np.append(a, b, axis = 1) # axis 1 방향(옆)으로 b 배열 추가
pprint(result)

type:<class 'numpy.ndarray'>
shape: (3, 6), dimension: 2, dtype:int32
Array's Data:
 [[ 1  2  3 10 11 12]
 [ 4  5  6 13 14 15]
 [ 7  8  9 16 17 18]]


In [95]:
different_shape_arr = np.arange(10, 20).reshape(5, 2)
pprint(different_shape_arr)

type:<class 'numpy.ndarray'>
shape: (5, 2), dimension: 2, dtype:int32
Array's Data:
 [[10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]]


In [96]:
np.append(a, different_shape_arr, axis = 1)

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 3 and the array at index 1 has size 5

기준축 shape[1]이 다를 경우 append 오류 발생

insert() : axis 지정하지 않을 경우 1차원 배열로 변환

In [97]:
a = np.arange(1, 10).reshape(3, 3)
pprint(a)

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [98]:
# a 배열이 1차원 배열로 변환되고 1번 index에 99 추가
np.insert(a, 1, 99)

array([ 1, 99,  2,  3,  4,  5,  6,  7,  8,  9])

In [99]:
# a 배열의 axis 0 방향의 1번 index에 999 추가
np.insert(a, 1, 999, axis = 0)

array([[  1,   2,   3],
       [999, 999, 999],
       [  4,   5,   6],
       [  7,   8,   9]])

In [100]:
# a 배열의 axis 1 방향의 1번 index에 999 추가
np.insert(a, 1, 999, axis = 1)

array([[  1, 999,   2,   3],
       [  4, 999,   5,   6],
       [  7, 999,   8,   9]])

delete() : axis 지정하지 않을 경우 1차원 배열로 반환      
delete() 함수는 원본 배열을 변경하지 않고 새로운 배열 반환

In [102]:
a = np.arange(1, 10).reshape(3, 3)
pprint(a)

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [103]:
np.delete(a, 1)

array([1, 3, 4, 5, 6, 7, 8, 9])

In [104]:
np.delete(a, 1, axis = 0)

array([[1, 2, 3],
       [7, 8, 9]])

In [105]:
np.delete(a, 1, axis = 1)

array([[1, 3],
       [4, 6],
       [7, 9]])

In [107]:
pprint(a) # 원본 배열 변화 없음

type:<class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


###### 배열 결합

concatenate()

In [108]:
a = np.arange(1, 7).reshape((2,3))
pprint(a)
b = np.arange(7, 13).reshape((2,3))
pprint(b)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]]
type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[ 7  8  9]
 [10 11 12]]


In [109]:
result = np.concatenate((a,b)) # axis default = 0
result

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [110]:
result = np.concatenate((a,b), axis = 0)
result

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [111]:
result = np.concatenate((a,b), axis = 1)
result

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [112]:
pprint(a)
pprint(b)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]]
type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[ 7  8  9]
 [10 11 12]]


+ 수직 방향 배열 결합

vstack(tuple) : tuple을 매개변수로 넣어주어야 함       
tuple로 설정된 여러 배열을 수직 방향으로 연결 (axis = 0 방향)        
concatenate(tuple, axis = 0)과 동일

In [115]:
a = np.arange(1,7).reshape((2,3))
pprint(a)
b = np.arange(7,13).reshape((2,3))
pprint(b)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]]
type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[ 7  8  9]
 [10 11 12]]


In [116]:
np.vstack((a, b)) # tuple 형태로 입력

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [117]:
np.vstack((a, b, a, b)) # 4개 배열을 tuple로 입력

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

+ 수평 방향 배열 결합

hstack(tuple)         
tuple로 설정된 여러 배열을 수평 방향으로 연결 (axis = 1 방향)     
concatenate(tuple, axis = 1)과 동일

In [118]:
a = np.arange(1,7).reshape((2,3))
pprint(a)
b = np.arange(7,13).reshape((2,3))
pprint(b)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[1 2 3]
 [4 5 6]]
type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int32
Array's Data:
 [[ 7  8  9]
 [10 11 12]]


In [119]:
np.hstack((a, b)) # tuple 형태로 입력

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [120]:
np.hstack((a, b, a, b)) # 4개 배열을 tuple로 입력

array([[ 1,  2,  3,  7,  8,  9,  1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12,  4,  5,  6, 10, 11, 12]])

###### 배열 분리

+ 배열 수평 분할

hsplit() : 배열을 수평 방향(열 방향)으로 분할 

In [121]:
a = np.arange(1, 25).reshape((4, 6))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype:int32
Array's Data:
 [[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [122]:
# 수평 방향으로 두 그룹으로 분할
result = np.hsplit(a, 2)
result

[array([[ 1,  2,  3],
        [ 7,  8,  9],
        [13, 14, 15],
        [19, 20, 21]]),
 array([[ 4,  5,  6],
        [10, 11, 12],
        [16, 17, 18],
        [22, 23, 24]])]

In [123]:
# 수평 방향으로 세 그룹으로 분할
result = np.hsplit(a, 3)
result

[array([[ 1,  2],
        [ 7,  8],
        [13, 14],
        [19, 20]]),
 array([[ 3,  4],
        [ 9, 10],
        [15, 16],
        [21, 22]]),
 array([[ 5,  6],
        [11, 12],
        [17, 18],
        [23, 24]])]

In [124]:
# 수평 방향으로 여러 구간으로 분할
result = np.hsplit(a, [1, 3, 5])
# a[:, :1], a[:, 1:3], a[:, 3:5], a[:, 5:]
result

[array([[ 1],
        [ 7],
        [13],
        [19]]),
 array([[ 2,  3],
        [ 8,  9],
        [14, 15],
        [20, 21]]),
 array([[ 4,  5],
        [10, 11],
        [16, 17],
        [22, 23]]),
 array([[ 6],
        [12],
        [18],
        [24]])]

+ 배열 수직 분할

vsplit() : 배열을 수직 방향(행 방향)으로 분할

In [125]:
a = np.arange(1, 25).reshape((4, 6))
pprint(a)

type:<class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype:int32
Array's Data:
 [[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [126]:
# 수직 방향으로 두 그룹으로 분할
result = np.vsplit(a, 2)
# a[:2], a[2:]
result

[array([[ 1,  2,  3,  4,  5,  6],
        [ 7,  8,  9, 10, 11, 12]]),
 array([[13, 14, 15, 16, 17, 18],
        [19, 20, 21, 22, 23, 24]])]

In [130]:
# 수직 방향으로 네 그룹으로 분할
result=np.vsplit(a, 4)
# a[:1], a[1:2], a[2:3], a[3:]
result

[array([[1, 2, 3, 4, 5, 6]]),
 array([[ 7,  8,  9, 10, 11, 12]]),
 array([[13, 14, 15, 16, 17, 18]]),
 array([[19, 20, 21, 22, 23, 24]])]

In [131]:
# a[:1], a[1:3], a[3:]
np.vsplit(a, [1, 3])

[array([[1, 2, 3, 4, 5, 6]]),
 array([[ 7,  8,  9, 10, 11, 12],
        [13, 14, 15, 16, 17, 18]]),
 array([[19, 20, 21, 22, 23, 24]])]