### 백터 연산

- 요소들에 대한 연산을 백터 연산으로 처리하면 일반적인 for반복문으로 연산 작업을 처리하는 것 보다 월등히 뛰어난 처리 속도로 효율적인 작업 가능

In [3]:
import numpy as np
# 0부터 시작하여 100000000개 요소를 가진 배열 생성
x = np.arange(100000000)
x

array([       0,        1,        2, ..., 99999997, 99999998, 99999999])

In [4]:
%%time
# 해당 셀을 수행하는데 소요된 시간을 표기해주는 주피터노트북 명령어
# 셀의 가장 상단에 위치해야함(주석 포함해서 가장 상단에 위치해야함.)

# 반복문을 통한 합계(x변수에 저장한 넘파이 배열 자료 총합 구하기)
# 시간단위 : 1s = 1,000㎳(밀리세컨드) = 1,000,000㎛(마이크로세컨드)
loop_result = 0
for i in x :
    loop_result += 1
print(loop_result)

100000000
CPU times: total: 16.4 s
Wall time: 16.5 s


In [5]:
%%time
# 벡터연산(넘파이명령어)를 통한 합계 연산
np.sum(x)

CPU times: total: 46.9 ms
Wall time: 46.9 ms


887459712

In [6]:
%%time
x.sum()

CPU times: total: 62.5 ms
Wall time: 57.4 ms


887459712

In [7]:
# (공통) 라이브러리 불러오기 및 사용자 함수 정의
import numpy as np
def np_print(nparr):
    print('''
    type : {}
    shape : {}
    dimension : {}
    dtype : {}
    data :\n {}
    '''.format(type(nparr), nparr.shape, nparr.ndim, nparr.dtype, nparr))

### 배열 정렬

- sort(axis = -1) 메서드 : axis를 기준으로 요소를 오름차순 정렬
    - 기본값(axis = -1) : 현재 배열의 마지막 axis
    - axis = 0 : 열 단위 정렬
    - axis = 1 : 행 단위 정렬
    - 원본 객체에 정렬 결과가 반영됨


- np.sort(axis = -1) : axis를 기준으로 요소를 오름차순 정렬
    - 기본값(axis = -1) : 현재 배열의 마지막 axis
    - axis = 0 : 열 단위 정렬
    - axis = 1 : 행 단위 정렬
    - 정렬된 새로운 배열을 반환함


- np.argsort(arr) : 정렬 순서를 반환
    - 기본값(axis = -1) : 현재 배열의 마지막 axis
    - axis = 0 : 열 단위 정렬
    - axis = 1 : 행 단위 정렬

In [8]:
# 1차원 배열 생성
x = np.arange(0,5)
np_print(x)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    dimension : 1
    dtype : int32
    data :
 [0 1 2 3 4]
    


In [11]:
# 기본 파이썬 문법으로 순번 뒤집기
x[::-1]

array([4, 3, 2, 1, 0])

In [17]:
# 난수 패턴 고정
np.random.seed(20)

In [18]:
# 오름차순 정렬
a = np.random.randint(0, 10,5)
np_print(a)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    dimension : 1
    dtype : int32
    data :
 [3 9 4 6 7]
    


In [19]:
np.sort(a)

array([3, 4, 6, 7, 9])

In [20]:
a

array([3, 9, 4, 6, 7])

In [23]:
# 2. arr.sort() -> 원본 자료 변경(영구)
a.sort()
a

array([3, 4, 6, 7, 9])

In [24]:
a

array([3, 4, 6, 7, 9])

In [25]:
b = np.random.randint(0, 10, 5)
np_print(b)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    dimension : 1
    dtype : int32
    data :
 [2 0 6 8 5]
    


In [27]:
# np.argsort(자료)는 내부의 아이템들을 오름차순 정렬하기 위해서
# 현재 몇 번 인덱스에 있는 자료를 어디에 배치해야 하는지 보여줌(몇 번 인덱스가 어디로 가야하는지)
np.argsort(b)

array([1, 0, 4, 2, 3], dtype=int64)

In [28]:
# 0이상 1미만의 범위에서 무작위로 실수값을 가지는 3행 3열의 배열 2개 생성
a = np.random.random((3,3))
b = np.random.random((3,3))
np_print(a)
np_print(b)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : float64
    data :
 [[0.65795147 0.19385022 0.2723164 ]
 [0.71860593 0.78300361 0.85032764]
 [0.77524489 0.03666431 0.11669374]]
    

    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : float64
    data :
 [[0.7512807  0.23921822 0.25480601]
 [0.85762553 0.94977903 0.56168686]
 [0.17878052 0.77025193 0.49238104]]
    


##### 예) 2차원 배열의 경우

기본값 axis = -1 <br>
현재 배열의 axis = 0, 1 <br>
마지막 axis = -1 (행별 정렬)



<img src='img/sortaxis1.jpg' width='200' height='200' align='left'>

In [29]:
# 기본 방향(axis = -1) -> 행별 정렬
np_print(a)
np.sort(a)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : float64
    data :
 [[0.65795147 0.19385022 0.2723164 ]
 [0.71860593 0.78300361 0.85032764]
 [0.77524489 0.03666431 0.11669374]]
    


array([[0.19385022, 0.2723164 , 0.65795147],
       [0.71860593, 0.78300361, 0.85032764],
       [0.03666431, 0.11669374, 0.77524489]])

##### axis = 0 (열별 정렬)



<img src='img/sortaxis0.jpg' width='200' height='200' align='left'>`

In [32]:
# 기본 방향(axis = 0) -> 열별 정렬
np_print(a)
np.sort(a, axis=0)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : float64
    data :
 [[0.65795147 0.19385022 0.2723164 ]
 [0.71860593 0.78300361 0.85032764]
 [0.77524489 0.03666431 0.11669374]]
    


array([[0.65795147, 0.03666431, 0.11669374],
       [0.71860593, 0.19385022, 0.2723164 ],
       [0.77524489, 0.78300361, 0.85032764]])

## 인덱싱(Indexing), 슬라이싱(Slicing)
### 1. 인덱싱 : 하나의 요소에 대해 참조


- 각 차원에 따라 배열이 참조하는 인덱스의 개수가 다름
    - 1차원 배열 : 인덱스 1개
    - 2차원 배열 : 인덱스 2개
    - 3차원 배열 : 인덱스 3개

- 인덱싱으로 참조한 요소에 대해 수정 가능

- 인덱스 배열을 전달하여 여러 개의 요소 참조

In [33]:
# 0부터 23까지 1씩 증가하는 값을 아이템으로 가지는 1차원 배열 생성
arr1 = np.arange(0, 24)
np_print(arr1)


    type : <class 'numpy.ndarray'>
    shape : (24,)
    dimension : 1
    dtype : int32
    data :
 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
    


In [34]:
# 1차원 배열 인덱싱 : 1번 인덱스 요소 접근
arr1[1]

1

In [35]:
# 1차원 배열 인덱싱 : 마지막 요소 접근
arr1[-1]

23

In [40]:
# 1차원 배열 인덱싱을 통한 값 수정
arr1[-1] = 100
arr1

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22, 100])

In [41]:
# 배열 arr1을 이용해 4 x 6 형태의 22차원 배열 arr2 만들기
arr2 = arr1.reshape(4,6)
np_print(arr2)


    type : <class 'numpy.ndarray'>
    shape : (4, 6)
    dimension : 2
    dtype : int32
    data :
 [[  0   1   2   3   4   5]
 [  6   7   8   9  10  11]
 [ 12  13  14  15  16  17]
 [ 18  19  20  21  22 100]]
    


In [42]:
# 2차원 배열 인덱싱 : 2차원배열[행인덱스, (열인덱스)]
# 하나의 행에 접근 : 1행
arr2[0]

array([0, 1, 2, 3, 4, 5])

In [43]:
arr2[1][3]

9

In [45]:
# 하나의 열에 접근 : 모든 행에 대해서 하나의 열에 접근
# 반환값 : 1d array
arr2[:,1]

array([ 1,  7, 13, 19])

In [47]:
# 하나의 값에 접근
arr2[2][2]

14

In [48]:
# 넘파이에서만 가능
arr2[2,2]

14

In [49]:
# 여러개의 행 조회
arr2[[0,3]]

array([[  0,   1,   2,   3,   4,   5],
       [ 18,  19,  20,  21,  22, 100]])

In [50]:
# 여러개의 열 조회
arr2[:,[0,2]]

array([[ 0,  2],
       [ 6,  8],
       [12, 14],
       [18, 20]])

In [67]:
# 0번째, 2번째 로우의 3번째, 5번째 열을 가져오도록 처리해보세요.
arr2[[0,2]][:,[3,5]]

array([[ 3,  5],
       [15, 17]])

In [68]:
# 2차원 배열 인덱싱을 통한 값 수정
# 하나의 행/열에 대해 모두 동일한 값으로 수정 : 전달하는 값을 스칼라값으로 전달
# 서로 다른 값으로 수정 : 배열 구조에 맞춰서 자료 전달
# 하나의 값을 수정하는 예시
arr2[2] = 9
arr2

array([[  0,   1,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11],
       [  9,   9,   9,   9,   9,   9],
       [ 18,  19,  20,  21,  22, 100]])

In [153]:
# 여러 값 대입 시
arr2[1] = [9,9,9,99,99,99]
arr2

array([[  0,   1,   2,   3,   4,   5],
       [  9,   9,   9,  99,  99,  99],
       [  9,   9,   9,   9,   9,   9],
       [ 18,  19,  20,  21,  22, 100]])

In [154]:
np_print(arr2)


    type : <class 'numpy.ndarray'>
    shape : (4, 6)
    dimension : 2
    dtype : int32
    data :
 [[  0   1   2   3   4   5]
 [  9   9   9  99  99  99]
 [  9   9   9   9   9   9]
 [ 18  19  20  21  22 100]]
    


In [155]:
# 3차원 배열 생성
# 구조 : 2개의 층(페이지, 면), 4행 3열
# np.arange() => 24개의 size
arr3 = np.arange(0, 24).reshape((2, 4, 3))
np_print(arr3)


    type : <class 'numpy.ndarray'>
    shape : (2, 4, 3)
    dimension : 3
    dtype : int32
    data :
 [[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]]
    


In [156]:
# 3차원 배열 인덱싱 : arr[면, 행, 열]
# 0번째 면(페이지)에 접근
arr3[0]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [157]:
# 첫 번째 면(0번), 1번 행에 접근
arr3[0, 1]

array([3, 4, 5])

In [158]:
# 첫 번째 면, 1번 행, 0번 열에 접근
arr3[0, 1, 0]

3

In [159]:
# 3차원 배열 역시 배열 인덱싱으로 값 수정이 가능하다.
# 스칼라 연산을 통한 동일한 값으로 수정
# arr3의 2번 면(1번 인덱스)를 0으로 일괄 변경해주세요.
arr3[1] = 0
arr3

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[ 0,  0,  0],
        [ 0,  0,  0],
        [ 0,  0,  0],
        [ 0,  0,  0]]])

In [160]:
# 하나의 면에 대해 서로 다른 값으로 수정 : 1번면, 1번행을 [1,2,3]으로 바꿔주세요.
arr3[1,1]=[1,2,3]
arr3

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[ 0,  0,  0],
        [ 1,  2,  3],
        [ 0,  0,  0],
        [ 0,  0,  0]]])

In [161]:
# 아니면 아ㅖ 3 x 4 형식으로 대입을 해버리는 방법도 있습니다.
arr3[0] = [[10, 20,30],
          [40, 50, 60],
          [0, 0, 0],
          [0, 0 , 0]]
arr3

array([[[10, 20, 30],
        [40, 50, 60],
        [ 0,  0,  0],
        [ 0,  0,  0]],

       [[ 0,  0,  0],
        [ 1,  2,  3],
        [ 0,  0,  0],
        [ 0,  0,  0]]])

In [162]:
# 인덱스 배열을 전달하여 여러 개의 요소 참조
# (기존 인덱싱 방법) 0번째 장 0행 0열, 1행 1열 ,2행 2열 요소에 접근
#arr3[0,0,0] # 10
#arr3[0,1,1] # 50
arr3 [0, 2,2] # 0

0

In [163]:
# 여러 개의 인덱싱을 배열로 전달
# (행0, 열0), (행1, 열1), (행2, 열2)
# 3차원 배열일 경우에 : [페이지, [0,1,2],[0,1,2]]
# arr3[면, 행, 열] -> 만약 여러 단위를 조회할때는 이중리스트로 입력
#삼중리스트 입력시 이중리스트 요소를 반복
arr3[0,[[0,1,2],[0,2,3]]]
#arr3[0:,[[0,1,2],[0,2,3]]]

array([[[10, 20, 30],
        [40, 50, 60],
        [ 0,  0,  0]],

       [[10, 20, 30],
        [ 0,  0,  0],
        [ 0,  0,  0]]])

### 2. 슬라이싱 : 여러 개의 요소에 대해 참조

- axis 별로 범위 지정
    - from_index : 시작 인덱스(포함), 0일 경우 생략 가능
    - to_index : 종료 인덱스(미포함), 마지막 인덱스일 경우 생략 가능
    - step : 연속되지 않은 범위의 경우 간격 지정

- 열만 조회하는 경우 : 전체 행에 슬라이싱으로 접근 후 특정 열을 조회

In [164]:
# 0부터 23까지 1씩 증가하는 정수값을 가지는 1차원 배열 생성
a = np.arange(0,24)
np_print(a)


    type : <class 'numpy.ndarray'>
    shape : (24,)
    dimension : 1
    dtype : int32
    data :
 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
    


In [165]:
# 1차원 배열 슬라이싱 : 1번부터 4번까지 접근
a[1:5]

array([1, 2, 3, 4])

In [166]:
# 1번째 인덱스로부터 14번째 인덱스까지 2개씩 건너뛰며 접근
a[1:15:2]

array([ 1,  3,  5,  7,  9, 11, 13])

In [167]:
# 2차원 배열 생성
b = a.reshape(6,4)
np_print(b)


    type : <class 'numpy.ndarray'>
    shape : (6, 4)
    dimension : 2
    dtype : int32
    data :
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
    


In [168]:
# 2차원 배열 슬라이싱 : 0행부터 3행까지 접근
# 2d_array[행(열: 간격)]
b[0:4]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [169]:
# 1행부터 4행에 대해서, 2열부터 3뎔까지 접근
b[1:5, 2:4]

array([[ 6,  7],
       [10, 11],
       [14, 15],
       [18, 19]])

In [170]:
# 2차원 배열 슬라이싱을 통한 값 수정
# 1행부터 4행에 대해 2열부터 3열까지의 모든 배열에 대해서 수정
s_arr = b[1:5, 2:4]
s_arr

array([[ 6,  7],
       [10, 11],
       [14, 15],
       [18, 19]])

In [171]:
# 0번째 행과 마지막 열을 제외한 모든 값을 99로 수정
s_arr[1:,:-1]=99
s_arr

array([[ 6,  7],
       [99, 11],
       [99, 15],
       [99, 19]])

In [172]:
# 얕은 복사로 인한 원본배열의 변경
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 99, 11],
       [12, 13, 99, 15],
       [16, 17, 99, 19],
       [20, 21, 22, 23]])

In [173]:
# 2차원 배열 슬라이싱 : 연속되지 않은 범위의 열에 대한 인덱싱
# step1, 전체 행에 대해서 접근
# step2, 여러 개의 열 인덱싱 배열 전달
# b의 전체 행 + 1, 3번째 열
# b[행, 열]
b[:,[1,3]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15],
       [17, 19],
       [21, 23]])

### 연습문제
아래 정보는 학생들의 학번, 영어 성적, 국어 성적, 수학 성적 정보 입니다. <br>
해당 정보를 첫번째 행(row)에 학번, 두번째 행에 영어 성적, 세번째 행에 국어 성적, 네번째 행에 수학 성적을 저장한 배열로 만들고 학생별로 -
- 영어 성적을 오름차순 기준으로 각 열(column)을 정렬하세요.


<img src='img/sort_q1.png' align='left'>

In [174]:
data = [[1, 2, 3, 4],
       [70, 97, 45, 56],
       [87, 84, 33, 67],
       [46, 80, 75, 78]]
arr = np.array(data)

In [175]:
# argsort()
# 영어에 해당하는 부분에 argsort()를 걸면 해당 자료들을 어디에 배치해야하는지 나오고
# 그것들을 전체 행에 정렬하면 된다.
i=np.argsort(arr[1])

In [176]:
arr[:,i]

array([[ 3,  4,  1,  2],
       [45, 56, 70, 97],
       [33, 67, 87, 84],
       [75, 78, 46, 80]])

### 조건 색인(Boolean Indexing)  ★★★★★

- 배열의 요소에 대해 조건을 적용하여 True, False로 조건에 대한 결과 반환
- True에 해당하는 요소만 조회하여 조건을 만족하는 결과 반환

In [177]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 99, 11],
       [12, 13, 99, 15],
       [16, 17, 99, 19],
       [20, 21, 22, 23]])

In [178]:
# 스칼라 연산을 이용해 10보다 큰 요소 조회하기
b > 10

array([[False, False, False, False],
       [False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [179]:
# 조건색인 방법
# 자료[자료를 포함한 조건식]
b[b>10]

array([99, 11, 12, 13, 99, 15, 16, 17, 99, 19, 20, 21, 22, 23])

In [180]:
b[b>10].size

14

In [181]:
# 조건색인을 이용해 b에서 짝수인 자료만 남겨보세요
# 조건색인에 2개 이상의 조건을 걸고 싶을때는 각 조건 하나하나마다 ()로 감싸주고
# 조건사이를 and인 경우 &으로, or인 경우는 /로 연결해준다.

b[(b!=0) & (b%2==0)]

array([ 2,  4,  6,  8, 12, 16, 20, 22])

### 연습문제

조건색인을 활용해 공무원시험의 합격자 평균을 구해주세요<br>.
합격점수는 60점 이상입니다.

아래는 시험 점수 결과입니다.<br>
[31, 30, 55, 34, 83, 75, 86, 60, 94, 80, 42, 37, 73, 80, 30, 65, 34,
       55, 56, 51]

In [187]:
s = [31, 30, 55, 34, 83, 75, 86, 60, 94, 80, 42, 37, 73, 80, 30, 65, 34, 55, 56, 51]
s = np.array

In [188]:
s[s > 59]

TypeError: '>' not supported between instances of 'builtin_function_or_method' and 'int'