### Numpy ndarray 개요

### NumPy  
- __선형대수 기반__ 의 라이브러리  
- __대량 데이터의 배열 연산__ 을 루프 없이 진행할 수 있어 빠른 계산이 가능  
- __C / C++ API__ 를 제공해 가능 -> NumPy에서 호출하는 방식  
    - __ndarray__ 사용  
- 주로 __np로 축약해 import__

In [1]:
import numpy as np

ndarray는 shape 속성 제공  
__ndarray.shape__ 을 사용하면 ndarray의 형태를 반환 (matrix 형태)

In [4]:
array1 = np.array([1,2,3])
print('array1 type:',type(array1))
print('array1 array 형태:',array1.shape)
print('3')

array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2 type:',type(array2))
print('array2 array 형태:',array2.shape)
print('2X3')

array3 = np.array([[1,2,3]])
print('array3 type:',type(array3))
print('array3 array 형태:',array3.shape)
print('1X3')

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
3
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
2X3
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)
1X3


ndarray는 ndim 속성 제공  
__ndarray.ndim__ 을 사용하면 ndarray의 차원을 반환

In [5]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


ndarray는 datatype을 지정할 수 있음  
__ndarray.dtype__ 을 이용하면 ndarray 속 데이터의 타입을 반환

In [6]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [10]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)
print("# 정수형 + 문자형을 의미")

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U11
# 정수형 + 문자형을 의미
[1. 2. 3.] float64


형변환 기능도 제공  
__ndarray.astype('바꿀 자료형')__ 을 이용  

In [11]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1= array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2= array_float1.astype('int32')
print(array_int2, array_int2.dtype)


[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### ndarray를 편리하게 생성하기 - arange, zeros, ones

__np.arange(n)__ 을 이용하면, [0, n) 으로 구성된 ndarray 반환  
파이썬의 range와 유사  
__np.arange(start=m, stop=n)__ 을 이용하면, python처럼 시작점과 끝나는 점을 정할 수 있다.  
\# 간격도 지정 가능

In [12]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


__np.zeros((m, n))__ 을 이용하면, 0으로 구성된 mxn shape의 ndarray를 반환  
__np.ones((m, n))__ 을 이용하면, 1로 구성된 mxn shape의 ndarray를 반환  
생성할 때, 옵션으로 __dtype="자료형"__ 을 주어 ndarray dtype 지정 가능  

In [13]:
zero_array = np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### reshape

__ndarray.reshape()__ 을 이용해 이미 있는 ndarray의 shape을 변경할 수 있음  
예를 들어 ndarray1의 shape이 10이라고 할때,  
ndarray1.reshape(2,5)은 ndarray1을 2x5로 변환한 ndarray를 반환  
(결과는 아래 실행결과와 같음)

In [14]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n',array2)

array3 = array1.reshape(5,2)
print('array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


이 메서드는 __잘못된 값을 입력하면, 변환이 되지 않아 에러 발생__ 함  
예를 들어 10의 shape을 변환한다고 했을 때, 가능한 경우는 10,  1x10, 2x5, 5x2, 10x1,  1x1x10, 1x2x5, ... 등이 가능함  
만약 4x3 처럼 잘못된 값을 입력하면 아래의 실행결과와 같이 에러가 발생한다  

In [15]:
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

이로 인해 많은 에러가 발생 가능한데, 메서드의 인자로 -1을 주면 해결할 수 있음  
  
ex) 만약 256을 row가 2개인 shape으로 변환하고 싶다고 하자  
원래라면 ndarray.reshape(2, 128)로 작성해야 하나,  
__ndarray.reshape(2, -1)__ 을 입력하면  
뒤의 값을 계산할 필요 없이 자동으로 __2x128 shape으로 변환__ 해 줌  

#### ★매우 유용★



In [16]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1,5)
print('array2 shape:',array2.shape)

array3 = array1.reshape(5,-1)
print('array3 shape:',array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


하지만 이 역시, __잘못된 입력에 대해선 에러가 발생__ 한다.  
예를 들어 shape이 256일 때, row가 3인 shape으로 변환하고 싶다고 하자  
256은 3으로 나눠지지 않으므로 ndarray.reshape(3, -1)을 사용해도 에러가 발생한다  

In [17]:
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

이렇게 reshape을 유용하게 사용할 수 있다.  
ndarray의 변환이 끝나고 list로 변환하고 싶으면 __ndarray.tolist()__ 을 이용

In [18]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n',array5.tolist())
print('array5 shape:',array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n',array6.tolist())
print('array6 shape:',array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


### indexing

ndarray의 일부 데이터 셋이나, 특정 데이터 만을 선택할 수 있도록 인덱싱할 수 있다.  
Python의 indexing과 유사한 기능  

* 단일값 추출

Python에서와 마찬가지로 __ndarray[m]__ 을 사용하면, __ndarray의 m번째 index의 값__ 을 가져옴  

In [19]:
# 1에서 부터 9 까지의 1차원 ndarray 생성 
array1 = np.arange(start=1, stop=10)
print('array1:',array1)
# index는 0 부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
value = array1[2]
print('value:',value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


Python에서와 마찬가지로 음수를 주면 __뒤에서 부터 count__  
ex. ndarray[-m]  뒤에서부터 셌을때, m번째 index의 값 반환

In [20]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두번째 값:',array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두번째 값: 8


이렇게만 이용하면 값을 반환하지만, __indexing을 통해 ndarray의 특정 요소에 접근도 가능__   
ex. ndarray[m] = 10 이라고 하면, 해당 값을 10으로 바꿔 줌

In [21]:
array1[0] = 9
array1[8] = 0
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


이 기능은 1차원에서만 제공하는 것이 아닌, __다차원에서도 가능__  
다만, 예를 들어 2차원일 때, __m 번째 요소의 n 번째 요소에 접근__ 하려면   
ndarray[m][n] X  
__ndarray[m,n] O__  
의 형식으로 접근해야 함

In [22]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0,col=0) index 가리키는 값:', array2d[0,0] )
print('(row=0,col=1) index 가리키는 값:', array2d[0,1] )
print('(row=1,col=0) index 가리키는 값:', array2d[1,0] )
print('(row=2,col=2) index 가리키는 값:', array2d[2,2] )

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0,col=0) index 가리키는 값: 1
(row=0,col=1) index 가리키는 값: 2
(row=1,col=0) index 가리키는 값: 4
(row=2,col=2) index 가리키는 값: 9


* Slicing

__여러 요소에 동시 접근__ 도 가능함 -> __Slicing__  
Python에서와 마찬가지로 :을 이용  
ex. __[m, n) 요소에 접근__ 하고 싶다  (단, m <= n)  
ndarray[m:n]  
  
만약, m > n이면 아무 값도 반환하지 않고,   
Python에서와 마찬가지로 list의 범위를 넘어가면 error 발생함  

In [26]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


Python에서와 유사하게, __start나 stop만 지정__ 하면,  
start만 지정 했을 때 -> start부터 ndarray의 끝까지  
stop만 지정 했을 때 -> ndarray의 처음부터 stop까지  
를 반환함
  
만약 둘 다 지정 안할시 ndarray 전체 반환  

In [27]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


이 기능 역시 다차원에서도 사용 가능  
ndarray의 3, 4, 5 요소들의 2, 3 요소들에 접근하고 싶다?  
-> __ndarray[3:6, 2:4]__ 

In [28]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d:\n',array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


In [29]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape )

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


* fancy indexing

__fancy indexing__ 은 이름은 거창하지만,  
__list나 ndarray로 인덱스 집합을 지정__ 해 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 방법을 의미함  


In [33]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d =>\n', array2d, '\n')

array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2] => ',array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] => ',array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] => ',array5.tolist())

array2d =>
 [[1 2 3]
 [4 5 6]
 [7 8 9]] 

array2d[[0,1], 2] =>  [3, 6]
array2d[[0,1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0,1]] =>  [[1, 2, 3], [4, 5, 6]]


#### array2d[[0,1], 2]  
array2d의 0, 1번째 요소의 2번째 요소들을 가져온다는 뜻  
  
#### array2d[[0,1], 0:2]  
array2d의 0, 1번째 요소의 0~1번째 요소들을 가져온다는 뜻  
  
#### array2d[[0,1]]  
array2d의 0, 1번째 요소들을 가져온다는 뜻  

shape을 유지하면 가져오는 것이 특징  
즉, ex [[0,1], 0:2]의 경우에, 4의 shape이 아닌 2x2의 shape으로 가져옴  
array2d[[0,1], 2]의 경우 처럼 2x1의 shape이 되는 경우는 2로 가져옴  

* Boolean indexing

Boolean indexing이란 조건 필터링을 가능하게 해주는 indexing 방식   
[] 내에 인덱스 대신 __조건문을 기재해 조건문에 해당하는 값__ 만 가져올 수 있음  

In [35]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolean indexing을 적용 
# array1d의 요소 중 5보다 큰 값을 가져오는 것
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값 :', array3)

array1d > 5 불린 인덱싱 결과 값 : [6 7 8 9]


만약 ndarray 자체를 조건문에 활용한다면?  
ndarray의 각 요소들을 조건문에 대입해 나온 T, F로 이루어진 ndarray 반환  

In [38]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

만약 ndarray에 ndarray 크기와 같은 boolean array를 인자로 준다면?  
T에 해당하는 인덱스의 값만 가져옴  

In [42]:
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexes]
# True에 해당하는 5, 6, 7, 8의 값만 가져옴
print('불린 인덱스로 필터링 결과 :', array3)

불린 인덱스로 필터링 결과 : [6 7 8 9]


물론, 일반 인덱스로 필터링 하는 것도 가능함  

In [43]:
indexes = np.array([5,6,7,8])
array4 = array1d[ indexes ]
print('일반 인덱스로 필터링 결과 :',array4)

일반 인덱스로 필터링 결과 : [6 7 8 9]


### 행렬의 정렬 – sort( )와 argsort( )

* 행렬 정렬

__np.sort(ndarray)__ 를 사용하면 ndarray을 디폴트 오름차순으로 정렬한 값을 반환함  
다만 원본엔 영향을 주지 않음  
  
원본에 영향을 주고 싶다면,  
__ndarray.sort()__  
를 통해 ndarray의 sort() 메서드를 실행해야 함  

In [45]:
org_array = np.array([ 3, 1, 9, 5]) 
print('원본 행렬:', org_array)
# np.sort( )로 정렬 
# np.sort( )는 원본에 영향 x
sort_array1 = np.sort(org_array)         
print ('np.sort( ) 호출 후 반환된 정렬 행렬:', sort_array1) 
print('np.sort( ) 호출 후 원본 행렬:', org_array)
# ndarray.sort( )로 정렬
# ndarray.sort( )는 원본에 영향 O
sort_array2 = org_array.sort()
print('org_array.sort( ) 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort( ) 호출 후 원본 행렬:', org_array)


원본 행렬: [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort( ) 호출 후 원본 행렬: [3 1 9 5]
org_array.sort( ) 호출 후 반환된 행렬: None
org_array.sort( ) 호출 후 원본 행렬: [1 3 5 9]


내림차순에 대한 옵션은 없고, __ndarray의 slicing 기능을 활용하면 내림차순 정렬 가능__  
np.sort(ndarray)로 오름차순 정렬 반환된 행렬에 slicing으로 간격 -1을 준다면  
__np.sort(ndarray)[::-1]__  
내림차순 정렬 반환 행렬을 얻을 수 있음

In [46]:
sort_array1_desc = np.sort(org_array)[::-1]
print ('내림차순으로 정렬:', sort_array1_desc) 

내림차순으로 정렬: [9 5 3 1]


이차원 배열도 가능한데, __row나 column 방향을 지정__ 해 가능함  
예를 들어 __row 방향__ 을 지정하려면, __axis=0 옵션__ 을 주면 됨  
row 방향, 즉 __세로 방향__ 으로 각 column에서 위에서 아래로 갈수록 오름차순으로 정렬함  
__column 방향__ 을 지정하려면, __axis=1 옵션__ 을 주면 됨  
column 방향, 즉 __가로 방향__ 으로 각 row에서 왼에서 오른쪽으로 갈수록 오름차순으로 정렬함  

In [51]:
array2d = np.array([[12, 3], 
                   [8, 1 ]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
# row 방향으로 0번째 column은 8, 12, 1번째 column은 1, 3
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
# col 방향으로 0번째 row는 3, 12, 1번째 row는 1, 8
print('컬럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 8  1]
 [12  3]]
컬럼 방향으로 정렬:
 [[ 3 12]
 [ 1  8]]


* 정렬 행렬의 인덱스 반환

행렬을 정렬할 때 원래의 인덱스가 필요한 경우가 있다.  
예를 들어 [3, 6, 1] 이었다고 할 때, 정렬을 하면 [1, 3, 6] 이 된다.  
원래의 인덱스를 기준으로 하면, [2, 0, 1] 이 되는 것이다.  
  
__np.argsort(ndarray)__ 를 통해 ndarray의 정렬된 index를 반환한다  

In [53]:
org_array = np.array([ 3, 1, 9, 5]) 
sort_indices = np.argsort(org_array)
## np.argsort(ndarray)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [61]:
org_array = np.array([ 3, 1, 9, 5]) 
sort_indices_desc = np.argsort(org_array)[::-1]
# 내림차순 정렬
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


아래와 같은 경우에 특히 자주 사용된다.  
아래의 경우는 두개의 ndarray가 존재하는데, 하나는 이름, 하나는 성적이다.  
이름과 성적은 같은 인덱스에 위치해 매칭되는데, 성적순으로 이름을 정렬해야 한다면 argsort를 이용한다.  
이 때, fancy indexing과 자주 함께 사용된다.  

In [63]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
# 성적순으로 정렬된 인덱스 행렬
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])
# 성적순으로 정렬된 인덱스 행렬 활용 fancy indexing을 이용해 이름도 성적순 나열

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산 – 행렬 내적과 전치 행렬 구하기

* 행렬 내적

__np.dot(ndarray1, ndarray2)__ 를 통해, 행렬 내적을 구현함  
물론 ndarray1과 ndarray2의 shape이 내적이 가능해야 함  

In [66]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
# 2x3과 3x2 이므로 가능
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


* 전치 행렬

__np.transpose(ndarray)__ 를 통해 간단하게 transpose 가능

In [67]:
A = np.array([[1, 2],
              [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
