# CH 01 파이썬 기반의 머신러닝과 생태계 이해

## 03. 넘파이
머신러닝의 주요 알고리즘은 선행대수와 통계 등에 기반한다. Numerical Python을 의미하는 넘파이(NumPy)는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지이다. 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하므로 빠른 배열 연산 속도를 보장한다.

일반적으로 데이터는 2차원 형태의 행과 열로 이뤄졌으며, 이에 대한 다양한 가공과 변환, 여러 가지 통계용 함수의 적용 등이 필요하다. 이러한 부분에서 넘파이는 파이썬의 대표적인 데이터 처리 패키지인 판다스의 편리성에는 미치지 못하는 게 사실이다.

넘파이는 매우 방대한 기능을 지원하고, 넘파이를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요하다. 많은 머신러닝 알고리즘이 넘파이 기반으로 작성돼 있음은 물론이고, 이들 알고리즘의 입력 데이터와 출력 데이터를 넘파이 배열 타입으로 사용하기 때문이다. 또한 넘파이가 배열을 다루는 기본 방식을 이해하는 것은 다른 데이터 핸들링 패키지(Ex. 판다스)를 이해하는 데도 많은 도움이 된다.

## 넘파이 ndarray 개요

넘파이 모듈 임포트
import numpy만 해도 충분하지만, as np를 추가해 약어로 모듈을 표현해주는 게 관례이다.

In [None]:
import numpy as np


넘파이 기반 데이터 타입은 ndarray이다. ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성, 다양한 연산을 수행할 수 있다.

넘파이 array() 함수는 파이썬의 리스트와 같은 다양한 인자를 입력받아서 ndarray로 변환하는 기능을 수행한다. 생성된 ndarray 배열의 shape 변수는 ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가지고 있으며 이를 통해 ndarray 배열의 차원까지 알 수 있다.

In [None]:
array1 = np.array([1,2,3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)

array2 = np.array([[1,2,3],[2,3,4]])
print('array2 type:',type(array2))
print('array2 array 형태: ', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type: ', type(array3))
print('array3 array 형태: ', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태:  (2, 3)
array3 type:  <class 'numpy.ndarray'>
array3 array 형태:  (1, 3)


**np.array() 사용법**

ndarray로 변환을 원하는 객체를 인자로 입력하면 ndarray를 반환한다.

ndarray.shape는 ndarray의 차원과 크기를 튜플(tuple) 형태로 나타내 준다.

ex) ndarray.shape


*   [1,2,3]의 shape은 (3,)이고, 1차원 array로 3개의 데이터를 가지고 있음을 뜻한다.
*   [[1,2,3],[2,3,4]]의 shape은 (2,3)이고, 2차원 array로, 2개의 row와 3개의 column으로 구성되어 2*3=6개의 데이터를 가지고 있음을 뜻한다.
* [[1,2,3]]의 shape은 (1,3)이고, 1개의 row와 3개의 column으로 구성된 2차원 데이터이다.

array1과 array3은 동일한 데이터 건수를 가지고 있지만, array1은 명확하게 1차원임을 (3,)의 형태로 표현한 것이며, array3은 2차원 데이터임을 (1,3)으로 표현한 것이다. 이는 머신러닝 알고리즘과 데이터 세트 간의 입출력과 변환을 수행하다 보면 명확히 1차원 데이터 세트 간의 입출력과 변환을 수행할 때 중요하게 작용한다.

array의 차원은 ndarray.ndim을 이용해 확인할 수 있다.

array() 함수의 인자로는 파이썬의 리스트 객체가 주로 사용된다. 리스트[]는 1차원이고, 리스트의 리스트 [[]]는 2차원과 같은 형태로 배열의 차원과 크기를 쉽게 표현할 수 있기 때문이다.

In [None]:
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3: 2차원


## ndarray의 데이터 타입

ndarray내의 데이터값은 숫자 값, 문자열 값, 불 값 등이 모두 가능하다.

숫자형의 경우 int형(8bit, 16bit, 32bit), unsigned int형(8bit, 16bit, 32bit), float형(16bit, 32bit, 64bit, 128bit), 그리고 이보다 더 큰 숫자 값이나 정밀도를 위해 complex타입도 제공한다.

ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다. 즉, 한 개의 ndarray 객체에 int와 float가 함께 있을 수 없다. ndarray내의 데이터 타입은 dtype 속성으로 확인할 수 있다.


In [None]:
list1=[1,2,3]
print(type(list1))
array1=np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


list1은 integer 숫자인 1,2,3을 값으로 가지고 있으며, 이를 ndarray로 쉽게 변경할 수 있다.

서로 다른 데이터 타입을 가질 수 있는 리스트와는 다르게 ndarray 내에서는 같은 데이터 타입만 가능하다고 했는데, 만약 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용한다.

In [None]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3= [1,2,3.0]
array3=np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


int형 값과 문자열이 섞여 있는 list2를 ndarray로 변환한 array2는 숫자형 값 1,2가 모두 문자열 값인 '1','2'로 변환됐습니다. 이처럼 ndarray는 데이터값이 모두 같은 데이터 타입이어야 하므로 서로 다른 데이터 타입이 섞여 있을 경우 데이터 타입이 더 큰 데이터 타입으로 변환되어 int형이 유니코드 문자열 값으로 변환되었다. int형과 float형이 섞여 있는 list3의 경우도 int 1,2가 모두 1. 2.인 float64형으로 변환되었다.

ndarray 내 데이터값의 타입 변경도 astype() 메서드를 이용해 할 수 있다. astype()에 인자로 원하는 타입을 문자열로 지정하면 된다. 이렇게 데이터 타입을 변경하는 경우는 대용량 데이터의 ndarray를 만들 때 많은 메모리가 사용되는데, 메모리를 더 절약해야 할 때 보통 이용된다.

파이썬 기반의 머신러닝 알고리즘은 대부분 메모리로 데이터를 전체 로딩한 다음 이를 기반으로 알고리즘을 적용하기 때문에 대용량의 데이터를 로딩할 때는 수행속도가 느려지거나 메모리 부족으로 오류가 발생할 수 있다.

In [None]:
array_int= np.array([1,2,3])
array_float=array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1=array_float.astype('int32')
print(array_int1,array_int1.dtype)

array_float1=np.array([1.1,2.1,3.1])
array_int2=array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


위 예제는 int32형 데이터를 float64로 변형하고, 다시 float64를 int32로 변경한다. float를 int형으로 변경하면 소수점 이하는 모두 없어진다.

# ndarray를 편리하게 생성하기 - arrange, zeros, ones

특정 크기와 차원을 가진 ndarray를 연속값이나 0 또는 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우가 발생할 수 있다. 이 경우 arrange(), zeros(), ones()를 이용해 쉽게 ndarray를 생성할 수 있다.주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우에 사용된다.

arrange()는 함수 이름에서 알 수 있듯이 파이썬 표준 함수인 range()와 유사한 기능을 한다. array를 range()로 표현하는 것이다. 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarray의 데이터값으로 변환해 준다.


In [None]:
sequence_array=np.arange(10)
print(sequence_array)
print(sequence_array.dtype,sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


default 함수 인자는 stop 값이며, 0부터 stop 값인 10에서 -1을 더한 9까지의 연속 숫자 값으로 구성된 1차원 ndarray를 만들어 준다. stop값과 더불어 start값도 부여해 0이 아닌 다른 값부터 시작한 연속 값을 부여할 수도 있다.

zeros()는 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape를 가진 ndarray를 반환한다. 유사하게 ones()는 함수 인자로 튜플 형태의 shape값을 입력하면 모든 값을 1로 채운 해당 shape를 가진 ndarray를 반환한다. 함수 인자로 dtype을 정해주지 않으면 default로 float64 형의 데이터로 ndarray를 채운다.

In [None]:
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array=np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


# ndarray의 차원과 크기를 변경하는 reshape()

reshape() 메서드는 ndarray를 특정 차원 및 크기로 변환한다. 변환을 원하는 크기를 함수 인자로 부여하면 된다.

다음 예제는 0~9까지의 1차원 ndarray를 2row x 5col과 5row x 2col 형태로 2차원 ndarray로 변환해 준다.

In [None]:
array1 = np.arange(10)
print('array1:\n',array1)

array2 = array1.reshape(2,5)
print('array2:\n', array2)

array3 = array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


당연한 얘기지만, reshape()는 지정된 사이즈로 변경이 불가능하면 오류를 발생한다. 가령 (10,) 데이터를 (4,3) Shape 형태로 변경할 수는 없다.

In [None]:
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

reshape()를 실전에서 더욱 효율적으로 사용하는 경우는 아마도 인자로 -1을 적용하는 경우이다. -1을 인자로 사용하면 원래 ndarray와 호환되는 새로운 shape로 변환해준다.

In [None]:
array1 = np.arange(10)
print(array1)
array2= array1.reshape(-1,5)
print('array2 shape:', array2.shape)
array3=array1.reshape(5,-1)
print('array3 shape:',array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


array1은 1차원 ndarray로 0~9까지의 데이터를 가지고 있다. array2는 array1.reshape(-1,5)로, row 인자가 -1, col 인자가 5이다. 이것은 array1과 호환될 수 있는 2차원 ndarray로 변환하며, 고정된 5개의 col에 맞는 row를 자동으로 새롭게 생성해 변환하라는 의미이다. 즉, 10개의 1차원 데이터와 호환될 수 있는 고정된 5개 col에 맞는 row 개수는 2이므로, 2x5의 2차원 ndarray로 변환하는 것이다.

array1.reshape(5,-1)도 마찬가지이다. 10개의 1차원 데이터와 호환될 수 있는 고정된 5개의 row에 맞는 col은 2이므로 5x2차원 ndarray로 변환하는 것이다. 물론 -1을 사용하더라도 호환될 수 없는 형태는 변환할 수 없다. 10개의 1차원 데이터를 고정된 4개의 col을 가진 row로는 변경할 수 없기에 다음 예제의 reshape(-1,4)는 에러가 발생한다.

In [None]:
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

-1 인자는 reshape(-1,1)와 같은 형태로 자주 사용된다. reshape(-1,1)은 원본 ndarray가 어떤 형태라도 2차원이고, 여러 개의 row를 가지되 반드시 1개의 col를 가진 ndarray로 변환됨을 보장한다. 여러 개의 넘파이 ndarray는 stack이나 concat으로 결합할 때 각각의 ndarray의 형태로 통일해 유용하게 사용된다.

다음 예제는 reshape(-1,1)을 이용해 3차원을 2차원으로, 1차원을 2차원으로 변경한다.

* ndarray는 tolist() 메서드를 이용해 리스트 자료형으로 변환할 수 있다. 때로는 리스트 자료형을 print를 이용해 출력할 때 시각적으로 더 이해하기 쉬울 수 있어서 ndarray를 리스트로 변환해 출력했다.

In [None]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d：\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n',array5.tolist())
print('array5 shape:',array5.shape)

#1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1, 1)
print('array6：\n', array6.tolist())
print('array6 shape：',array6.shape)

array3d：
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6：
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape： (8, 1)


# 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)

넘파이에서 ndarray 내의 일부 데이터 세트나 특정 데이터만을 선택할 수 있도록 하는 인덱싱에 대해 알아보자.



1.   특정한 데이터만 추출: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환
2.   슬라이싱(Slicing): 슬라이싱은 연속된 인덱스상의 ndarray를 추출하는 방식이다. ':' 기호 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스 -1 위치에 있는 데이터의 ndarray를 반환한다. 예를 들어 1:5라고 하면 시작 인덱스1과 종료 인덱스 4까지에 해당하는 ndarray를 반환한다.
3. 팬시 인덱싱(Fancy Indexing): 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray를 반환한다.
4. 불린 인덱싱(Boolean Indexing): 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환한다.

## 단일 값 추출

먼저 한 개의 데이터만을 추출하는 방법을 알아보자. 1개의 데이터값을 선택하려면 ndarray 객체에 해당하는 위치의 인덱스 값을 []안에 입력하면 된다.

다음 예제에서 간단한 1차원 ndarray에서 한 개의 데이터를 추출하기 위해 데이터값이 1부터 9까지인 9개의 1차원 ndarray를 생성하겠다.



In [None]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1,stop=10)
print('array1:',array1)
# index는 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터값을 의미
value = array1[2]
print('value:',value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


인덱스는 0부터 시작하므로 array1[2]는 3번째 인덱스 위치의 데이터값을 의미하므로 데이터값 3을 의미한다. array1[2]의 타입은 더 이상 ndarray 타입이아니고 ndarray 내의 데이터값을 의미한다. 인덱스에 마이너스 기호를 이용하면 맨 뒤에서부터 데이터를 추출할 수 있다. 인덱스 -1은 맨 뒤의 데이터값을 의미한다. -2는 맨 뒤에서 두 번째에 있는 데이터값이다.

In [None]:
print('맨 뒤의 값:',array1[-1], '맨 뒤에서 두 번째 값:',array1[-2])

맨 뒤의 값: 9 맨 뒤에서 두 번째 값: 8


단일 인덱스를 이용해 ndarray 내의 데이터값도 간단히 수정 가능하다.

In [None]:
array1[0] = 9
array1[8] = 0
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


다음으로 다차원 ndarray에서 단일 값을 추출하겠다. 3차원 이상의 ndarray에서의 데이터 추출도 2차원 ndarray와 큰 차이가 없으므로 더 간단한 이해를 위해 2차원 ndarray에서 단일 값을 추출하는 것을 예제로 보자.1차원과 2차원 ndarray에서의 데이터 접근의 차이는 2차원의 경우 콤마(,)로 분리된 row와 column 위치의 인덱스를 통해 접근하는 것이다.

앞 예제의 1차원 ndarray를 2차원 3x3 ndarray로 변환한 후 [row,col]을 이용해 2차원 ndarray에서 데이터를 추출해 보자.

In [None]:
array1d = np.arange(start=1,stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:',array2d[0,0])
print('(row=0, col=1) index 가리키는 값:',array2d[0,1])
print('(row=1, col=0) index 가리키는 값:',array2d[1,0])
print('(row=2, col=2) index 가리키는 값:',array2d[2,2])


[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


3개의 row 각각이 0,1,2의 인덱스로, 3개의 column 각각 0,1,2의 인덱스로 되어 있다. 따라서, array2d[0,0]은 첫 번째 row, 첫 번째 column 위치의 데이터인 1, array2d[0,1]은 첫 번째 row, 두 번째 column 위치의 데이터인 2, array2d[1,0]은 두 번째 row, 첫 번째 column 위치의 데이터인 4, array2d[2,2]는 세 번째 row, 세 번째 column 위치의 데이터인 9를 가리킨다.

또 주목해야 할 부분은 aixs 0과 axis 1이다. axis 0은 row 방향의 축, axis 1은 column 방향의 축을 의미한다. 즉, [row=0, col=1] 인덱싱은 [axis 0=0, axis1=1]이 정확한 표현이다. 2차원이므로 axis 0, axis 1로 구분되며, 3차원 ndarray의 경우는 axis 0, axis 1, axis 2로 3개의 축을 가지게 된다. 이런 식으로 넘파이의 다차원 ndarray는 axis 구분을 가진다.

axis 0이 row 방향, axis 1이 column 방향 축임을 이해하는 것은 중요하다. 다차원 ndarray의 경우 축(axis)에 따른 연산을 지원하기 때문이다. 축 기반의 연산에서 axis가 생략되면 axis 0을 의미한다.

## 슬라이싱

':' 기호를 이용해 연속한 데이터를 슬라이싱해서 추출할 수 있다. 단일 데이터값 추출을 제외하고 슬라이싱, 팬시 인덱싱, 불린 인덱싱으로 추출된 데이터 세트는 모두 ndarray 타입이다. ':' 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스-1의 위치에 있는 데이터의 ndarray를 반환한다.

In [None]:
array1 = np.arange(start=1,stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


슬라이싱 기호인 ':' 사이의 시작, 종료 인데스는 생략이 가능하다.



1.   ':' 기호 앞에 시작 인덱스라이싱 기호인 ':' 사이의 시작, 종료 인데스는 생략이 가능하다.
2. ':' 기호 뒤에 종료 인덱스를 생략하면 자동으로 맨 마지막 인덱스로 간주한다.
3. ':' 기호 앞/뒤에 시작/종료 인덱스를 생략하면 자동으로 맨 처음/맨 마지막 인덱스로 간주한다.

In [None]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6= array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


이번에는 2차원 ndarray에서 슬라이싱으로 데이터에 접근해 보자. 2차원 ndarray에서의 슬라이싱도 1차원 ndarray에서의 슬라이싱과 유사하며, 단지 콤마(,)로 row와 column 인덱스를 지칭하는 부분만 다르다.

In [None]:
array1d = np.arange(start=1,stop=10)
array2d = array1d.reshape(3,3)
print('array2d:\n',array2d)

print('array2d[0:2,0:2]\n',array2d[0:2,0:2])
print('array2d[1:3,0:3]\n',array2d[1:3,0:3])
print('array2d[1:3,:]\n',array2d[1:3,:])
print('array2d[:,:]\n',array2d[:,:])
print('array2d[:2,1:]\n',array2d[:2,1:])
print('array2d[:2,0]\n',array2d[:2,0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2,0:2]
 [[1 2]
 [4 5]]
array2d[1:3,0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3,:]
 [[4 5 6]
 [7 8 9]]
array2d[:,:]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2,1:]
 [[2 3]
 [5 6]]
array2d[:2,0]
 [1 4]


1차원 ndarray에 슬라이싱을 적용한 경우와 유사하게 row, col 각각의 인덱스에 슬라이싱을 적용하면 된다. array2d[:2,0]과 같이 row나 col 축 한 쪽에만 슬라이싱을 적용하고, 다른 쪽 축에는 단일 값 인덱스를 적용해도 된다.

2차원 ndarray에서 뒤에 오는 인덱스를 없애면 1차원 ndarray를 반환한다. 즉, array2d[0]과 같이 2차원에서 뒤에 오는 인덱스를 없애면 row 축(axis 0)의 첫 번째 row ndarray를 반환하게 된다. 반환되는 ndarray는 1차원이다. 3차원 ndarray에서 뒤에 오는 인덱스를 없애면 2차원 ndarray를 반환한다.

In [None]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


## 팬시 인덱싱
팬시 인덱싱(Fancy Indexing)은 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식이다.
다음 예제에서 2차원 ndarray에 팬시 인덱싱을 적용하면서 이 기능이 어떻게 작동하는지 살펴보자.

In [None]:
array1d = np.arange(start=1,stop=10)
array2d= array1d.reshape(3,3)

array3 = array2d[[0,1],2]
print('array2d[[0,1],2 =>',array3.tolist())

array4 = array2d[[0,1],0:2]
print('array2d[[0,1],0:2] =>', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] =>', array5.tolist())

array2d[[0,1],2 => [3, 6]
array2d[[0,1],0:2] => [[1, 2], [4, 5]]
array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


array2d[[0,1],2] row 축에 팬시 인덱싱인 [0,1]을, column 축에는 단일 값 인덱싱 2를 적용하였다. 따라서, (row, col) 인덱스가 (0,2),(1,2)로 적용되어 [3, 6]을 반환한다. array2d[[0,1],0:2]는 ((0,0),(0,1)), ((1,0),(1,1)) 인덱싱이 적용되어 [[1,2],[4,5]]를 반환한다. array2d[[0,1]]는 ((0,:),(1,:)) 인덱싱이 적용돼 [[1,2,3],[4,5,6]]을 반환한다.

## 불린 인덱싱
불린 인덱싱(Boolean indexing)은 조건 필터링과 검색을 동시에 할 수 있기 때문에 매우 자주 사용되는 인덱싱 방식이다. 1차원 ndarray[1,2,3,4,5,6,7,8,9]에서 데이터값이 5보다 큰 데이터만 추출하려면 어떻게 하면 될까? 아마 for loop를 돌면서 값을 하나씩 if '추출값'>5 비교를 통해서 해당하는 데이터만 추출해야 할 것이다. 불린 인덱싱을 이용하면 for loop/if else 문보다 훨씬 간단하게 이를 구현할 수 있다. 불린 인덱싱은 ndarray의 인덱스를 지정하는 [] 내에 조건문을 그대로 기재하기만 하면 된다. 다음 예제에서 불린 인덱싱을 바로 적용해 보도록 하자.

In [None]:
array1d = np.arange(start=1,stop=10)
# [] 안에 array1d > 5 Boolean indexing을 적용
array3 = array1d[array1d>5]
print('array1d > 5 불린 인덱싱 결과 값:',array3)

array1d > 5 불린 인덱싱 결과 값: [6 7 8 9]


어떻게 조건 필터링이 이처럼 간단하게 될 수 있는지 알아보자. 먼저 넘파이 ndarray 객체에 조건식을 할당하면 어떤 일이 일어나는지 확인하겠다.

In [None]:
array1d>5

array([False, False, False, False, False,  True,  True,  True,  True])

array1d>5와 같이 단지 ndarray 객체에 조건식만 붙였을 뿐인데 False, True로 이뤄진 ndarray 객체가 변환되었다. 변환된 array([False, False, False, False, False,  True,  True,  True,  True])를 자세히 살펴보면 5보다 큰 데이터가 있는 위치는 True 값이, 그렇지 않은 경우는 False 값이 반환됨을 확인할 수 있다. 조건으로 반환된 이 ndarray 객체를 인덱싱을 지정하는 [] 내에 입력하면 False값은 무시하고 True 값이 있는 위치 인덱스 값으로 자동 변환해 해당하는 인덱스 위치의 데이터만 반환하게 된다. 즉, array([False, False, False, False, False,  True,  True,  True,  True])에서 False가 있는 인덱스 0~4는 무시하고 인덱스[5,6,7,8]이 만들어지고 이 위치 인덱스에 해당하는 데이터 세트 [6,7,8,9]를 반환하게 된다.

위와 동일한 불린 ndarray를 만들고 이를 array1d[] 내에 인덱스로 입력하면 동일한 데이터 세트가 반환됨을 알 수 있다.

In [None]:
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


즉, 다음과 같이 직접 인덱스 집합을 만들어 대입한 것과 동일하다.

In [None]:
indexes = np.array([5,6,7,8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과 :', array4)

일반 인덱스로 필터링 결과 : [6 7 8 9]


불린 인덱싱이 동작하는 단계



*   Step 1: array1d>5와 같이 ndarray의 필터링 조건을 [] 안에 기재
*   Step 2: False 값은 무시하고 True 값에 해당하는 인덱스값만 저장(유의해야 할 사항은 True값 자체인 1을 저장하는 것이 아니라 True값을 가진 인덱스를 저장한다는 것이다)
* Step 3: 저장된 인덱스 데이터 세트로 ndarray 조회

불린 인덱싱은 내부적으로 여러 단계를 거쳐서 동작하지만, 코드 자체는 단순히 [ ] 내에 원하는 필터링 조건만 넣으면 해당 조건을 만족하는 ndarray 데이터 세트를 반환하기 때문에 사용자는 내부 로직에 크게 신경 쓰지 않고 쉽게 코딩할 수 있다.

# 행렬의 정렬 - sort()와 argsort()
넘파이에서 행렬을 정렬하는 대표적인 방법인 np.sort()와 ndarray.sort(), 그리고 정렬된 행렬의 인덱스를 반환하는 argsort()에 대해서 알아보자.

## 행렬 정렬
넘파이의 행렬 정렬은 np.sort()와 같이 넘파이에서 sort()를 호출하는 방식과 ndarray.sort()와 같이 행렬 자체에서 sort()를 호출하는 방식이 있다. 두 방식의 차이는 np.sort()의 경우 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환하며, ndarray.sort()은 원 행렬 자체를 정렬한 형태로 변환하며 반환 값은 None이다.

다음 예제에서 이 둘을 이용한 간단한 행렬 정렬을 수행해 보자.

In [None]:
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)
# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬: ',sort_array1)
print('np.sort() 호출 후 원본 행렬:',org_array)
# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:',sort_array2)
print('org_array.sort() 호출 후 원본 행렬:',org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬:  [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


원본 행렬 [3 1 9 5]에 대해서 np.sort()는 원본 행렬을 변경하지 않고 정렬된 형태로 반환했으며, ndarray.sort()는 원본 행렬 자체를 정렬한 값으로 변환함을 알 수 있다. np.sort()나 ndarray.sort() 모두 기본적으로 오름차순으로 행렬 내 원소를 정렬한다. 내림차순으로 정렬하기 위해서는 [::-1]을 적용한다. np.sort()[::-1]과 같이 사용하면 된다.

In [None]:
sort_array1_desc=np.sort(org_array)[::-1]
print('내림차순으로 정렬:',sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


행렬이 2차원 이상일 경우에 axis 축 값 설정을 통해 row 방향, 또는 column 방향으로 정렬을 수행할 수 있다.

In [None]:
array2d = np.array([[8,12],[7,1]])
sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬: \n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬: \n', sort_array2d_axis1)

로우 방향으로 정렬: 
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬: 
 [[ 8 12]
 [ 1  7]]


## 정렬된 행렬의 인덱스를 반환하기

원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할 때 np.argsort()를 이용한다. np.argsort()는 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환한다.

np.argsort()를 이용해 원본 행렬의 정렬 시 행렬 인덱스 값을 구하자.

In [None]:
org_array=np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:',sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


오름차순이 아닌 내림차순으로 정렬 시에 원본 행렬의 인덱스를 구하는 것도 np.argsort()[::-1]과 같이 [::-1]을 적용하면 된다.

In [None]:
org_array = np.array([3,1,9,5])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:',sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


argsort()는 넘파이에서 매우 활용도가 높다. 넘파이의 ndarray는 RDBMS의 TABLE 칼럼이나 뒤에 소개할 판다스 DataFrame 칼럼과 같은 메타 데이터를 가질 수 없다. 따라서 실제 값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 각각 가져야만 한다. 예를 들어 학생별 시험 성적을 데이터로 표현하기 위해서는 학생의 이름과 시험 성적을 데이터로 표현하기 위해서는 학생의 이름과 시험 성적을 각각 ndarray로 가져야 한다. 즉 John = 78, Mike = 95, Sarah = 84, Kate = 98, Samuel = 88을 ndarray로 활용하고자 한다면 name_array = ['John', 'Mike', 'Sarah', 'Kate', 'Samuel']와 score_array=[78,95, 84, 98, 88]과 같이 2개의 ndarray를 만들어야 한다. 이때 시험 성적순으로 학생 이름을 출력하고자 한다면 np.argsort(score_array)를 이용해 반환된 인덱스를 name_array에 팬시 인덱스로 적용해 추출할 수 있으며, 이러한 방식은 넘파이의 데이터 추출에서 많이 사용된다.

In [None]:
import numpy as np

name_array = np.array(['John','Mike','Sarah','Kate','Samuel'])
score_array=[78,95, 84, 98, 88]

sort_indices_asc=np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:',sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:',name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


# 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

넘파이는 매우 다양한 선형대수 연산을 지원한다. 그중 가장 많이 사용되면서도 기본 연산인 행렬 내적과 전치 행렬을 구하는 방법을 알아보자.

## 행렬 내적(행렬 곱)

행렬 내적은 행렬 곱이며, 두 행렬 A와 B의 내적은 np.dot()을 이용해 계산이 가능하다.두 행렬 A와 B의 내적은 왼쪽 행렬의 row와 오른쪽 행렬의 column의 원소들을 순차적으로 곱한 뒤 그 결과를 모두 더한 값이다.

왼쪽 행렬의 열 개수와 오른쪽 행렬의 행 개수가 동일해야 내적 연산이 가능하다. 행렬 내적을 넘파이의 dot()을 이용해 구해 보자.

In [None]:
A = np.array([[1,2,3],[4,5,6]])
B = np.array([[7,8],[9,10],[11,12]])
dot_product = np.dot(A,B)
print('행렬 내적 결과:\n',dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


## 전치 행렬
원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬을 그 행렬의 전치 행렬이라고 한다.

넘파이의 transpose()를 이용해 전치 행렬을 쉽게 구할 수 있다.

In [None]:
A = np.array([[1,2],[3,4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n',transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
