### 넘파이를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요
* 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지

In [1]:
import numpy as np

In [4]:
# 넘파이의 기반 데이터 타입 : ndarray

array1 = np.array([1,2,3])  # 1차원
print('array1 type: ', type(array1))
print('array1 array 형태: ', array1.shape)

array2 = np.array([[1,2,3],[2,3,4]])  # 2차원
print('array2 type: ', type(array2))
print('array2 array 형태: ', array2.shape)

array3 = np.array([[1,2,3]])  # 3차원
print('array3 type: ', type(array3))
print('array3 array 형태: ', array3.shape)

array1 type:  <class 'numpy.ndarray'>
array1 array 형태:  (3,)
array2 type:  <class 'numpy.ndarray'>
array2 array 형태:  (2, 3)
array3 type:  <class 'numpy.ndarray'>
array3 array 형태:  (1, 3)


In [5]:
print('array1:{:0}차원, array2:{:1}차원, array3:{:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1:1차원, array2:2차원, array3: 2차원


In [6]:
# ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능

list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [7]:
# 다른 데이터 유형이 섞여 있는 리스트를 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환 일괄 적용

list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


In [8]:
# astype() 으로 타입 변경 또한 가능

array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1,2.1,3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


#### ndarray를 연속값이나 0 또는 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우
* arange()
    * 0부터 함수 인자 값 -1 까지의 값을 순차적으로 ndarray 데이터값으로 변환
    * range와 유사하게 start 값을 부여해 0이 아닌 다른 값부터 시작한 연속 값 부여할 수 있음
* zeros()
    * 함수 인자로 dtype을 정해주지 않으면 float64형의 데이터로 채움
* ones()
    * 함수 인자로 dtype을 정해주지 않으면 float64형의 데이터로 채움

In [9]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [10]:
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


In [3]:
# 불린 인덱싱(Boolean Indexing)

array1d = np.arange(1,10)
array3 = array1d[array1d > 5]
print(array3)

[6 7 8 9]


### 행렬의 정렬 - sort(), argsort()

* np.sort() - 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬 반환
* ndarray.sort() - 원 행렬 자체를 정렬한 형태로 변환하며 반환 값은 None

In [7]:
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)

# np.sort() 로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)

# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


In [8]:
sort_array_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array_desc)

내림차순으로 정렬: [9 5 3 1]


In [9]:
# 행렬이 2차원 이상일 경우
array2d = np.array([[8,12],
                   [7,1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('컬럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
컬럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


* np.argsort() - 정렬 행렬의 원본 행렬 인덱스를 ndarray형으로 반환

In [10]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [11]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)[::-1]
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

행렬 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [12]:
# argsort() 는 매우 활용도가 높다.
# 넘파이의 ndarray는 메타 데이터를 가질 수 없다.
# 따라서 실제 값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 각각 가져야 한다.

name_array = np.array(['John','Mike','Sarah','Kate','Samuel'])
score_array = np.array([78,95,83,98,88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

In [17]:
# 행렬 내적(행렬 곱) : 왼쪽 행렬의 열 개수와 오른쪽 행렬의 행 개수가 동일해야 내적 연산 가능

A = np.array([[1,2,3],
             [4,5,6]])
B = np.array([[7,8],
            [9,10],
            [11,12]])

dot_product = np.dot(A,B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


In [18]:
# 전치 행렬 : 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬

A = np.array([[1,2],
             [3,4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
