#**01. 파이썬 기반의 머신러닝과 생태계 이해**

##**03. 넘파이**

**넘파이(Numpy)**: Numerical Python
- 머신러닝의 주요 알고리즘은 선형대수, 통계 등에 기반
- 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지

**특징**
- 루프 사용 없이 대량 데이터의 배열 연산을 가능하게 함 → 빠른 배열 연산 속도 보장
    
    대량 데이터 기반 과학/공학 프로그램은 빠른 계산 능력 중요 ⇒ 넘파이에 의존
    
- C/C++과 같은 저수준 언어 기반의 호환 API 제공
    
    기존 C/C++ 기반 타 프로그램과 데이터 주고받거나 API 호출해 쉽게 통합할 수 있는 기능 제공
    
    넘파이는 빠른 배열 연산 보장하나, 파이썬 언어 자체가 가지는 수행 성능의 제약 존재
    
    ⇒ 수행 성능이 매우 중요한 부분은 C/C++, 이를 넘파이에서 호출하는 방식으로 통합
    
    e.g. 구글의 딥러닝 프레임워크, 텐서플로
    
- 다양한 데이터 핸들링 기능 제공
    
    편의성, 다양한 API 지원 측면에서 판다스에는 미치지 못함 → 주로 판다스의 데이터프레임 이용
    
- 넘파이를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요
    
    많은 머신러닝 알고리즘이 넘파이 기반 작성, 입출력 데이터를 넘파이 배열 타입으로 사용
    
    넘파이가 배열 다루는 기본 방식을 이해하는 것은 다른 데이터 핸들링 패키지 이해에도 도움됨

### **넘파이 ndarray 개요**

In [None]:
import numpy as np

- **ndarray**: 넘파이의 기반 데이터 타입

  다차원 배열 쉽게 생성하고 다양한 연산 수행 가능
  

- **array()**: 입력받은 인자를 ndarray로 변환하는 기능

In [None]:
array1 = np.array([1,2,3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)
# 1차원, 3개의 데이터

array2 = np.array([[1,2,3],
                   [2,3,4]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)
# 2차원, 2행 3열, 데이터 6개

array3 = np.array([[1,2,3]])
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape)
# 2차원, 1행 3열, 데이터 3개

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


- **np.array()**: 변환을 원하는 객체를 인자로 입력하면 ndarray를 반환
- **ndarray.shape**: ndarray의 차원과 크기 -> 튜플 형태

In [None]:
# 차원 확인
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


### **ndarray의 데이터 타입**
- 숫자 값, 문자열 값, 불 값
- 숫자형: int, unsigned int, float, complex

- ndarray내의 데이터 타입은 같은 데이터 타입만 가능
- dtype 속성: ndarray내의 데이터 타입 확인

In [None]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [None]:
# 데이터 타입 섞여 있는 리스트인 경우
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


- array2: int형과 문자열 섞임 -> 숫자형 1,2가 모두 문자열 값으로 변환
- array3: int형과 float형 섞임 -> int 1,2가 모두 float64형으로 변환

- astype(): ndarray 내 데이터값의 타입 변경 메소드
- 주로 메모리 절약에 이용(float->int)

In [None]:
# int32형 데이터 -> float64 -> int32로 변경
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1,2.1,3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### **ndarray 편리하게 생성 - arange, zeros, ones**
- 특정 크기와 차원을 가진 ndarray를 연속값, 0, 1로 초기화해 쉽게 생성

- arange(): range()와 유사  
  - array를 range()로 표현
  - 0부터 (인자 - 1)까지 순차적으로 ndarray 데이터값으로 변환

In [None]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


- default 함수 인자: stop 값
- 1차원 ndarray 생성
- start 값도 부여 가능

  ---
- zeros()
  - 인자: 튜플 형태의 shape 값
  - 모든 값을 0으로 채운 해당 shape의 ndarray 반환
  ---
- ones()
  - 인자: 튜플 형태의 shape 값
  - 모든 값을 1로 채운 해당 shape의 ndarray 반환

dtype 정해주지 않은 경우: default = float64

In [None]:
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### **ndarray의 차원, 크기 변경 - reshape()**
- reshape(): ndarray를 특정 차원, 크기(인자로 입력)로 변환

In [None]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n', array2)

array3 = array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- 지정된 사이즈로 변경 불가능하면 오류 발생

  e.g. (10,) -> (4,3) 변경 불가

In [None]:
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

- 인자로 -1 적용 -> 원래 ndarray와 호환되는 새로운 shape로 변환해줌

In [None]:
array1 = np.arange(10)
print(array1)
array2 = array1.reshape(-1,5)
print('array2 shape:', array2.shape)
array3 = array1.reshape(5,-1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


- array1: 0~9까지의 1차원 ndarray
- array2: array1을 2차원 ndadrray로 변환하되, 고정된 5개의 칼럼에 맞는 로우를 자동으로 생성
  -> 2X5 변환

In [None]:
# -1을 사용해도 호환될 수 없는 형태는 변환 불가
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

- reshape(-1,1): 원본 ndarray가 어떤 형태이든 2차원, 여러 개의 로우와 반드시 1개의 칼럼을 가진 ndarray로 변환됨을 보장
  
  => stack, concat으로 결합할 때 각각의 ndarray 형태 통일에 유용하게 사용

In [None]:
# 3차원 -> 2차원, 1차원 -> 2차원 변경 예제

array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


### **ndarray의 데이터 세트 선택 - 인덱싱(Indexing)**

**1. 특정 데이터만 추출**: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환

**2. 슬라이싱(Slicing)**: 연속된 인덱스상의 ndarray 추출
- ':' 기호 사이에 시작, 종료 인덱스 표시
- 시작 ~ (종료 - 1) 인덱스 위치에 있는 ndarray 반환

**3. 팬시 인덱싱(Fancy Indexing)**: 일정한 인덱싱 집합을 리스트/ndarray로 지정해 해당 위치에 있는 데이터의 ndarray 반환

**4. 불린 인덱싱(Boolean Indexing)**: 특정 조건 해당 여부 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray 반환

#### **단일 값 추출**
- 한 개의 데이터 추출
- ndarray 객체에 해당하는 위치의 인덱스 값을 [ ]안에 입력

In [None]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1:', array1)
# index는 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터값을 의미
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


- 인덱스에 마이너스 기호 이용 -> 맨 뒤에서부터 데이터 추출
- -1: 맨 뒤 데이터값
- -2: 뒤에서 두 번째 데이터값

In [None]:
print('맨 뒤의 값:', array1[-1], ', 맨 뒤에서 두 번째 값:', array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두 번째 값: 8


- 단일 인덱스를 이용해 ndarray 내의 데이터값도 수정 가능

In [None]:
array1[0] = 9
array1[8] = 0
print('array1:', array1)

array1: [9 2 3 4 5 6 7 8 0]


**다차원 ndarray에서 단일 값 추출**
- 2차원의 경우 콤마(,)로 분리된 로우와 칼럼 위치의 인덱스를 통해 접근

In [None]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=2, col=2) index 가리키는 값:', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


- axis 0: 로우 방향 축
- axis 1: 칼럼 방향 축
- 3차원 ndarray: (axis 0, axis 1, axis 2) 3개의 축을 가짐

#### **슬라이싱**
- 단일 데이터값 추출 제외 슬라이싱, 팬시, 불린 인덱싱으로 추출된 데이터 세트는 모두 ndarray 타입
- ':' 사이에 시작, 종료 인덱스 표시
- 시작 인덱스 ~ (종료 인덱스 - 1)의 위치에 있는 데이터의 ndarray 반환

In [None]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


- ':' 사이의 시작, 종료 인덱스 생략 가능
1. 시작 인덱스 생략 -> 맨 처음 인덱스(0)로 간주
2. 종료 인덱스 생략 -> 맨 마지막 인덱스로 간주
3. 시작/종료 인덱스 생략 -> 맨 처음/맨 마지막 인덱스로 간주

In [None]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


**2차원 ndarray 슬라이싱**
- 1차원과 유사, 콤마(,)로 로우/칼럼 인덱스 지칭하는 부분만 다름

In [None]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d:\n', array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, :] \n', array2d[:2, :])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, :] 
 [[1 2 3]
 [4 5 6]]
array2d[:2, 0] 
 [1 4]


- 2차원 ndarray에서 뒤에 오는 인덱스 없애면 1차원 ndarray 반환
- 3차원 ndarray에서 뒤에 오는 인덱스 없애면 2차원 ndarray 반환

In [None]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


#### **팬시 인덱싱**
- 리스트나 ndarray로 인덱스 집합 지정 -> 해당 위치의 인덱스에 해당하는 ndarray 반환

In [None]:
# 2차원 ndarray 팬시 인덱싱
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,1],2]
print('array2d[[0,1],2] =>', array3.tolist())

array4 = array2d[[0,1],0:2]
print('array2d[0,1],0:2 =>', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] =>', array5.tolist())

array2d[[0,1],2] => [3, 6]
array2d[0,1],0:2 => [[1, 2], [4, 5]]
array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


#### **불린 인덱싱**
- 조건 필터링과 검색을 동시에 할 수 있어 자주 사용

In [None]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolearn indexing 적용
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값:', array3)

array1d > 5 불린 인덱싱 결과 값: [6 7 8 9]


In [None]:
# ndarray 객체에 조건식 할당
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

- False, True로 이뤄진 ndarray 객체 반환
- 이 객체를 [ ] 내에 입력하면 True 값이 있는 위치 인덱스 값으로 자동 변환 -> 해당 인덱스 위치의 데이터만 반환

In [None]:
boolean_indexs = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexs]
print('불린 인덱스로 필터링 결과:',array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


In [None]:
indexes = np.array([5,6,7,8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과:',array4)

일반 인덱스로 필터링 결과: [6 7 8 9]


**불린 인덱싱 동작 단계 도식화**
1. array1d > 5와 같이 ndarray의 필터링 조건을 [ ] 안에 기재
2. False 값은 무시하고 True 값에 해당하는 인덱스값만 저장

  (True값 자체인 1을 저장하는 것 X, True값을 가진 인덱스를 저장)
3. 저장된 인덱스 데이터 세트로 ndarray 조회

### **행렬의 정렬 - sort(), argsort()**

#### **행렬 정렬**
- **np.sort()**: 원 행렬 유지, 정렬된 행렬 반환
- **ndarray.sort()**: 원 행렬 자체를 정렬한 형태로 변환, 반환 값은 None

In [None]:
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)
# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)
# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


- 기본적으로 오름차순 정렬

  -> 내림차순 정렬: [::-1] 이용
  
  e.g. np.sort()[::-1]

In [None]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


- 2차원 이상 -> axis 축 값 설정을 통해 로우/칼럼 방향 정렬 수행도 가능

In [None]:
array2d = np.array([[8,12],
                    [7,1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향 정렬:\n', sort_array2d_axis1)

로우 방향 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향 정렬:
 [[ 8 12]
 [ 1  7]]


#### **정렬된 행렬의 인덱스 반환**
- np.argsort(): 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환

In [None]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


- np.argsort()[::-1]: 내림차순 정렬 시 원본 행렬 인덱스

In [None]:
org_array = np.array([3,1,9,5])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


- ndarray는 판다스 DataFrame 칼럼과 같은 메타 데이터를 가질 수 없음

  -> 실제 값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 각각 가져야 함

  => argsort()는 넘파이에서 매우 활용도가 높음

In [None]:
import numpy as np

name_array = np.array(['John','Mike','Sarah','Kate','Samuel'])
score_array = np.array([78,95,84,98,88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### **선형대수 연산 - 행렬 내적과 전치 행렬**

#### **행렬 내적(행렬 곱)**
- **np.dot()**: 행렬 내적 계산
- 행렬의 내적: 왼쪽 행렬의 로우(행)와 오른쪽 행렬의 칼럼(열)의 원소들을 순차적으로 곱한 뒤 그 결과를 모두 더한 값
- 왼쪽 행렬의 열 개수와 오른쪽 행렬의 행 개수가 동일해야 내적 연산 가능

In [None]:
A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11,12]])

dot_product = np.dot(A,B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


#### **전치 행렬**
- **전치 행렬**: 원 행렬에서 행과 열 위치 교환한 원소로 구성한 행렬
- **transpose()**: 전치 행렬 구하기

In [None]:
A = np.array([[1,2],
              [3,4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
