# CH1 파이썬 기반의 머신러닝과 생태계 이해
## 01. 머신러닝의 개념
- 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법

### 머신러닝의 분류
- 지도학습: 분류, 회귀, 추천 시스템, 시각/음성 감지/인지, 텍스트 분석, NLP
- 비지도학습: 클러스터링, 차원 축소, 강화학습

### 데이터 전쟁
데이터와 머신러닝 알고리즘 모두 머신러닝에서는 중요한 요소이다. 머신러닝의 가장 큰 단점을 데이터에 의존적이라는 것이다. 즉, 좋은 품질의 데이터를 갗추지 못한다면 머신러닝의 수행 결과도 좋지 않을 것이다. 머신러닝 모델을 개선하기 위해서는 데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터를 기반으로 알고리즘을 구동할 수 있도록 준비하는 능력이 중요하다.

### 파이썬과 R 기반의 머신러닝 비교
R은 통계 전용 프로그램 언어이고, 파이썬은 개발 전문 프로그램 언어이다.

## 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지
파이썬 기반의 머신러닝을 익히기 위해 필요한 패키지
- 머신러닝 패키지
- 행렬/선형대수/통계 패키지
- 데이터 핸들링
- 시각화

## 03. 넘파이
머신러닝의 주요 알고리즘은 선형대수와 통계 등에 기반한다. Numerical Python을 의미하는 넘파이(NumPy)는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지이다. 루프를 사용하지 않고 대량 데이터의 배여 연산을 가능하게 하므로 빠른 배열 연산 속도를 보장한다.

넘파이는 또한 C/C++과 같은 저수준 언어 기반의 호환 API를 제공한다. 넘파이는 매우 빠른 배열 연산을 보장해 주지만, 파이썬 언어 자체가 가지는 수행 성능의 제약이 있으므로 수행 성능이 매우 중요한 부분은 C/C++ 기반의 코드로 작성하고 이를 넘파이에서 호출하는 방식으로 쉽게 통합할 수 있다.

넘파이는 다양한 데이터 핸들링 기능을 제공한다. 많은 파이썬 기반의 패키지가 넘파이를 이용해 데이터 처리를 수행하지만, 편의성과 다양한 API 지원 측면에서 아쉬운 부분이 많다. 일반적으로 데이터는 2차원 형태의 행과 열로 이뤄졌으며, 이에 대한 다양한 가공과 변환, 여러 가지 통계용 함수의 적용 등이 필요하다. 이러한 부분에서 넘파이는 대표적인 데이터 처리 패키지인 판다스의 편리성에는 미치지 못하는 게 사실이다.

넘파이를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요하다. 많은 머신러닝 알고리즘이 넘파이 기반으로 작성되어 있고 이들 알고리즘의 입력 데이터와 출력 데이터를 넘파이 배열 타입으로 사용하기 때문이다. 또한 넘파이가 배열을 다루는 기본 방식을 이해하는 것은 다른 데이터 핸들링 패키지, 예를 들어 판다스를 이해하는 데에도 많은 도움이 된다.

### 넘파이 ndarray 개요
넘파이 모듈 임포트

In [67]:
import numpy as np

넘파이의 기반 데이터 타입은 ndarray이다. ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있다.

넘파이 array() 함수는 파이썬의 리스트와 같은 다양한 인자를 입력받아서 ndarray로 변환하는 기능을 수행한다. 생성된 ndarray 배열의 shape 변수는 ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가지고 있으며 이를 통해 ndarray 배열의 차원까지 알 수 있다.

In [68]:
array1 = np.array([1,2,3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)

array2 = np.array([[1,2,3],
                   [2,3,4]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


np.array()는 ndarray로 변환을 원하는 객체를 인자로 입력하면 ndarray를 반환한다. ndarray.shape는 ndarray의 차원과 크기를 튜플(tuple) 형태로 나타내 준다. [1,2,3]인 array1의 shape는 (3,)이다. 이는 1차원 array로 3개의 데이터를 가지고 있음을 뜻한다. [[1,2,3],[2,3,4]]인 array2의 shape는 (2,3)이다. 이는 2차원 array로, 2개의 로우와 3개의 칼럼으로 구성되어 2*3=6개의 데이터를 가지고 있음을 뜻한다. [[1,2,3]]인 array3의 shape는 (1,3)이다. 이는 1개의 로우와 3개의 칼럼으로 구성된 2차원 데이터를 의미한다.

머신러닝 알고리즘과 데이터 세트 간의 입출력과 변환을 수행하다 보면 명확히 1차원 또는 다차원 데이터를 요구하는 경우가 있다. 데이터값은 동일하나 차원이 달라서 오류가 발생하는 경우가 빈번하므로 명확히 차원의 차수를 변환하는 방법을 알아야 한다.

각 array의 차원을 ndarray.ndim을 이용해 확인

In [69]:
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3: 2차원


array1은 1차원, array3는 2차원임을 알 수 있다. array() 함수의 인자로는 파이썬의 리스트 객체가 주로 사용된다. 리스트 []는 1차원이고, 리스트의 리스트[[]]는 2차원과 같은 형태로 배열은 차원과 크기를 쉽게 표현할 수 있기 때문이다.
### ndarray의 데이터 타입
ndarray내의 데이터 값은 숫자 값, 문자열 값, 불 값 등이 모두 가능합니다. 숫자형의 경우 int형(8bit, 16bit, 32bit), unsigned int형(8bit, 16bit, 32bit), float형(16bit, 32bit, 64bit, 128bit), 그리고 이보다 더 큰 숫자 값이나 정밀도를 위해 complex 타입도 제공한다.
ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다.  
ndarray내의 데이터 타입은 dtype 속성으로 확인할 수 있다.

In [70]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


리스트 자료형인 list1은 integer 숫자인 1,2,3을 값으로 가지고 있으며, 이를 ndarray로 쉽게 변경할 수 있다.

만약 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용한다.

In [71]:
list2 = [1,2,'teat']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'teat'] <U21
[1. 2. 3.] float64


int형과 문자열이 섞여있는 list2를 ndarray로 변환한 array2는 숫자형 값 1, 2가 모두 문자열 값인 '1', '2'로 변환되었다.

ndarray 내 데이터값의 타입 변경도 astype() 메서드를 이용해 할 수 있다. astype()에 인자로 원하는 타입을 문자열로 지정하면 된다. 이렇게 데이터 타입을 변경하는 경우는 대용량 데이터의 ndarray를 만들 때 많은 메모리가 사용되는데, 메모리를 더 절약해야 할 때 보통 이용된다.

In [72]:
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1,2.1,3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### ndarray를 편리하게 생성하기-arange, zeros, ones
특정 크기와 차원을 가진 ndarray를 연속값이나 0 또는 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우가 발생할 수 있다. 이 경우 arange(), zeros(), ones()를 이용해 쉽게 ndarray를 생성할 수 있다. 주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야할 경우에 사용된다.

arange()는 함수 이름에서 알 수 있듯이 파이썬 표준 함수인 range()와 유사한 기능을 한다. 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarray의 데이터값으로 변환해준다.

In [73]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


default 함수 인자는 stop 값이며, 0부터 stop 값인 10에서 -1을 더한 9까지의 연속 숫자 값으로 구성된 1차원 ndarray를 만들어 준다. 여기서는 stop 값만 부여했으나 range와 유사하게 start 값도 부여해 0이 아닌 다른 값부터 시작한 연속 값을 부여할 수도 있다.

zeros()는 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape를 가진 ndarray를 반환한다. 유사하게 ones()는 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값은 1로 채운 해당 shape를 가진 ndarray를 반환한다. 함수 인자로 dtype을 정해주지 않으면 defaule로 float64 형의 데이터로 ndarray를 채운다.

In [74]:
zero_array = np.zeros((3,2), dtype = 'int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### ndarray의 차원과 크기를 변경하는 reshape()
reshape() 메서드는 ndarray를 특정 차원 및 크기로 변환한다. 변환을 원하는 크기를 함수 인자로 부여하면 된다.

In [75]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n', array2)

array3 = array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


reshape()는 지정된 사이즈로 변경이 불가능하면 오류를 발생한다.

In [76]:
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

reshape()를 실전에서 더욱 효율적으로 사용하는 경우는 인자로 -1을 적용하는 경우일 것이다. -1을 인자로 사용하면 ndarray와 호환되는 새로운 shape로 변환해 준다.

In [77]:
array1 = np.arange(10)
print(array1)
array2 = array1.reshape(-1,5)
print('array2 shape:', array2.shape)
array3 = array1.reshape(5,-1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


array1은 1차원 ndarray로 0~9까지의 데이터를 가지고 있다. array2는 array1.reshape(-1, 5)로, 로우 인자가 -1, 칼럼 인자가 5이다. 이것은 array1과 호환될 수 있는 2차원 ndarray로 변환하되, 고정된 5개의 칼럼에 맞는 로우를 자동으로 새롭게 생성해 변환하라는 의미이다.

-1을 사용하더라도 호환될 수 없는 형태는 변환할 수 없다.

In [78]:
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

-1 인자는 reshape(-1, 1)와 같은 형태로 자주 사용된다. reshape(-1,1)은 원본 ndarray가 어떤 형태라도 2차원이고, 여러 개의 로우를 가지되 반드시 1개의 칼럼을 가진 ndarray로 변환됨을 보장한다. 여러 개의 넘파이 ndarray는 stack이나 concat으로 결합할 때 각각의 ndarray의 형태를 통일해 유용하게 사용된다.

In [79]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

#1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


### 넘파이의 ndarray의 데이터 세트 선택하기-인덱싱(Indexing)
인덱싱은 넘파이에서 ndarray 내의 일부 데이터 세트나 특정 데이터만을 선택할 수 있도록 한다.

1. 특정한 데이터만 추출: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환된다.
2. 슬라이싱(Slicing): 슬라이싱은 연속된 인덱스상의 ndarray를 추출하는 방식이다. ':' 기호 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스-1 위체에 있는 데이터의 ndarray를 반환한다.
3. 팬시 인덱싱(Fancy Indexing): 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray를 반환한다.
4. 불린 인덱싱(Boolean Indexing): 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환한다.
### 단일 값 추출
1개의 데이터값을 선택하려면 ndarray 객체에 해당하는 위치의 인덱스 값을 []안에 입력한다.

In [80]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start = 1, stop = 10)
print('array1:', array1)
# index는 0부터 시작하므로 array1[2]는 3번쨰 index 위치의 데이터값을 의미
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


인덱스는 0부터 시작하므로 array1[2]는 3번째 인덱스 위치의 데이터값을 의미하므로 데이터값 3을 의미한다. array1[2]의 타입은 ndarray 내의 데이터값을 의미한다. 인덱스에 마이너스 기호를 이용하면 맨 뒤에서부터 데이터를 추출할 수 있다.

In [81]:
print('맨 뒤의 값:', array1[-1], '맨 뒤에서 두 번째 값:', array1[-2])

맨 뒤의 값: 9 맨 뒤에서 두 번째 값: 8


단일 인덱스를 이용해 ndarray 내의 데이터값도 간단히 수정 가능하다.

In [82]:
array1[0] = 9
array1[8] = 0
print('array1:', array1)

array1: [9 2 3 4 5 6 7 8 0]


다차원 ndarray에서 단일 값 추출은 다음과 같다. 1차원과 2차원 ndarray에서의 데이터 접근의 차이는 콤마로(,) 분리된 로우와 칼럼 위치의 인덱스를 통해 접근하는 것이다.

In [83]:
array1d = np.arange(start =1, stop = 10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row = 0, col = 0) index 가리키는 값:', array2d[0,0])
print('(row = 0, col = 1) index 가리키는 값:', array2d[0,1])
print('(row = 1, col = 0) index 가리키는 값:', array2d[1,0])
print('(row = 2, col = 2) index 가리키는 값:', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row = 0, col = 0) index 가리키는 값: 1
(row = 0, col = 1) index 가리키는 값: 2
(row = 1, col = 0) index 가리키는 값: 4
(row = 2, col = 2) index 가리키는 값: 9


3개의 행 각각이 0,1,2의 인덱스로, 3개의 열 각각 0,1,2의 인덱스로 되어 있다.

axis 0은 로우 방향의 축을 의미하고, axis 1은 칼럼 방향의 축을 의미한다. 넘파이의 다차원 ndarray는 axis 구분을 가진다.

다차원 ndarray의 경우 축(axis)에 따른 연산을 지원한다. 축 기반의 연산에서 axis가 생략되면 axis 0을 의미한다.

### 슬라이싱
':' 기호를 이용해 연속한 데이터를 슬라이싱해서 추출할 수 있다. 단일 데이터값 추출을 제외하고 슬라이싱, 챈시 인덱싱, 불린 인덱싱으로 추출된 데이터 세트는 모두 ndarray 타입니다. ':' 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스-1의 위치에 있는 데이터의 ndarray를 반환한다.

In [84]:
array1 = np.arange(start = 1, stop = 10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


슬라이싱 기호인 ':' 사이의 시작, 종료 인덱스는 생략이 가능하다.
1. ':' 기호 앞에 시작 인덱스를 생략하면 자동으로 맨 처음 인덱스인 0으로 간주한다.
2. ':' 기호 뒤에 종료 인덱스를 생략하면 자동으로 맨 마지막 인덱스로 간주한다.
3. ':' 기호 앞/뒤에 시작/종료 인덱스를 생략하면 자동으로 맨 처음/맨 마지막 인덱스로 간주한다.

In [85]:
array1 = np.arange(start = 1, stop = 10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


2차원 ndarray에서의 슬라이싱도 1차원 ndarray에서의 슬라이싱과 유사하며, 단지 콤마(,)로 로우와 칼럼 인덱스를 지칭하는 부분만 다르다.

In [86]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3,3)
print('array2d:\n', array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


1차원 ndarray에 슬라이싱을 적용한 경우와 유사하게 row, col 각각의 인덱스에 슬라이싱을 적용하면 된다. 로우나 칼럼 축 한쪽에만 슬라이싱을 적용하고, 다른 쪽 축에는 단일 값 인덱스를 적용해도 된다.

2차원 ndarray에서 뒤에 오는 인덱스를 없애면 1차원 ndarray를 반환한다. 3차원 ndarray에서 뒤에 오는 인덱스를 없애면 2차원 ndarray를 반환한다.

In [87]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


### 팬시 인덱싱
팬시 인덱싱(Fancy Indexing)은 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식이다.

In [88]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2] => ', array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] => ', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] => ', array5.tolist())

array2d[[0,1], 2] =>  [3, 6]
array2d[[0,1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0,1]] =>  [[1, 2, 3], [4, 5, 6]]


array2d[[0,1],2] 로우 축에 팬시 인덱싱은 [0,1]을, 칼럼 축에는 단일 값 인덱싱 2를 적용했다.

### 불린 인덱싱
불린 인덱싱(Boolean indexing)은 조건 필저링과 검색을 동시에 할 수 있기 때문에 매우 자주 사용되는 인덱싱 방식이다. 불린 인덱싱은 ndarray의 인덱스를 지정하는 []내에 조건문을 그대로 기재하기만 하면 된다.

In [89]:
array1d = np.arange(start = 1, stop = 10)
# [] 안에 array1d > 5 Boolean indexing을 적용
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값:', array3)

array1d > 5 불린 인덱싱 결과 값: [6 7 8 9]


넘파이 ndarray 객체에 조건식을 할당할 경우

In [90]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

반환된 array를 보면 5보다 큰 데이터가 있는 위치는 True 값이, 그렇지 않은 경우는 False 값이 반환됨을 확인할 수 있다. 조건으로 반환된 이 ndarray 객체를 인덱싱을 지정하는 []내에 입력하면 False 값은 무시하고 True 값이 있는 위치 인덱스 값으로 자동 변환해 해당하는 인덱스 위치의 데이터만 반환하게 된다. 위와 동일한 불린 ndarray를 만들고 이를 array1d[] 내에 인덱스로 입력하면 동일한 데이터 세트가 반환된다.

In [91]:
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


다음과 같이 직접 인덱스 집합을 만들어 대입한 것과 동일하다.

In [92]:
indexes = np.array([5,6,7,8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

일반 인덱스로 필터링 결과: [6 7 8 9]


불린 인덱싱이 동작하는 단계
- Step 1: array1d > 5와 같이 ndarray의 필터링 조건을 []안에 기재
- Step2: False 값은 무시하고 True 값에 해당하는 인덱스값만 저장
- Step3: 저장된 인덱스 데이터 세트로 ndarray 조회
### 행렬의 정렬-sort()와 argsort()
**행렬 정렬**

넘파이의 행렬 정렬은 np.sort()와 같이 넘파이에서 sort()를 호출하는 방식과 ndarray.sort()와 같이 행렬 자체에서 sort()를 호출하는 방식이 있다. 두 방식의 차이는 np.sort()의 경우 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환하며, ndarray.sort()는 원 행렬 자체를 정렬한 형태로 변환하며 반화 값은 None이다.


In [93]:
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)
# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)
# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


np.sort()나 ndarray.sort() 모두 기본적으로 오름차순으로 행렬 내 원소를 정렬한다. 내림차순으로 정렬하기 위해서는 [::-1]을 적용한다.

In [94]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


행렬이 2차원 이상일 경우에 axis 축 값 설정을 통해 로우 방향, 또는 칼럼 방향으로 정렬을 수행할 수 있다.

In [95]:
array2d = np.array([[8,12],
                    [7,1]])
sort_array2d_axis0 = np.sort(array2d, axis = 0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis = 1)
print('칼럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


**정렬된 행렬의 인덱스를 반환하기**

원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할 때 np.argsort()를 이용한다. np.argsort()는 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환한다.

In [96]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


오름차순이 아닌 내림차순으로 정렬 시에 원본 행렬의 인덱스를 구하는 것도 np.argsort()[::-1]과 같이 [::-1]을 적용하면 된다.

In [97]:
org_array = np.array([3,1,9,5])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


argsort()는 넘파이에서 매우 활용도가 높다. 넘파이의 ndarray는 RDBMS의 TABLE 칼럼이나 판다스 DataFrame칼럼과 같은 메타 데이터를 가질 수 없다. 따라서 실제 값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 각각 가져야만 한다.

In [98]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78,95,84,98,88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순으로 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순으로 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산-행렬 내적과 전치 행렬 구하기
**행렬 내적(행렬 곱)**

행렬 내적은 행렬 곱이며, 두 행렬 A와 B의 내적은 np.dot()을 이용해 계산이 가능하다. 두 행렬 A와 B의 내적은 왼쪽 행렬의 행과 오른쪽 행렬의 열의 원소들을 순차적으로 곱한 뒤 그 결과를 모두 더한 값이다. 이러한 행렬 내적의 특성으로 왼쪽 행렬의 열 개수와 오른쪽 행렬의 행 개수가 동일해야 내적 연산이 가능하다.

In [99]:
A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11,12]])
dot_product = np.dot(A,B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


**전치 행렬**

원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬을 그 행렬의 전치 행렬이라고 한다. 이때 행렬 A의 전치 행렬은 A^T와 같이 표기한다.

넘파이의 transpose()를 이용해 전치 행렬을 구할 수 있다.

In [100]:
A = np.array([[1,2],
              [3,4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
