Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Numpy  
> **Numpy**  
Numerical Python을 의미하는 Numpy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지이다.   

- Numpy를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요하다.   
1. 많은 머신러닝 알고리즘이 넘파이 기반으로 작성돼 있고, 이들 알고리즘의 입력 및 출력 데이터를 넘파이 배열 타입으로 사용하기 때문
2. 넘파이가 배열을 다루는 기본 방식을 이해하면 판다스 등 다른 데이터 핸들링 패키지를 이해하는 데에도 많은 도움이 됨



## 1. Numpy ndarray 개요  

> **ndarray**  
넘파이의 기반 데이터 타입, ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있다.  

- **np.array()**  
: ndarray로 변환을 원하는 객체를 인자로 입력하면 ndarray를 반환  
인자로는 파이썬의 리스트 객체가 주로 사용됨

- **ndarray.shape**  
: ndarray의 차원과 크기, 즉 행과 열의 수를 튜플 형태로 반환  

- **ndarray.ndim**  
: ndarray의 차원 값을 반환

In [1]:
# Numpy 모듈 임포트
import numpy as np

In [2]:
# 1차원 배열
array1 = np.array([1, 2, 3])
print('array1 type: ', type(array1))
print('array1 shape: ', array1.shape)

# 2차원 배열 (2행 3열)
array2 = np.array([[1, 2, 3], 
                   [2, 3, 4]])
print('array2 type: ', type(array2))
print('array2 shape: ', array2.shape)

# 2차원 배열 (1행 3열)
array3 = np.array([[1, 2, 3]])
print('array3 type: ', type(array3))
print('array3 shape: ', array3.shape)

array1 type:  <class 'numpy.ndarray'>
array1 shape:  (3,)
array2 type:  <class 'numpy.ndarray'>
array2 shape:  (2, 3)
array3 type:  <class 'numpy.ndarray'>
array3 shape:  (1, 3)


In [3]:
# 각 ndarray의 차원 확인
print('array1: {:0}차원, \narray2: {:1}차원, \narray3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, 
array2: 2차원, 
array3:  2차원


## 2. ndarray의 데이터 타입   

ndarray 내의 데이터값은 숫자, 문자열, 불 값 등이 모두 가능하다.  
숫자형의 경우 int형(8, 16, 32bit), float형(16, 32, 64, 128bit), complex형도 가능  

- **ndarray.dtype**  
: ndarray 내 데이터 타입 확인  

단, ndarray 내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다.  

만약 서로 다른 데이터 유형이 섞여 있는 경우에는 데이터 크기가 더 큰 타입으로 형 변환을 일괄 적용한다.  

- **ndarray.astype()**  
: ndarray 내 데이터값의 타입 변경, 인자로 원하는 타입을 문자열로 지정  
주로 대용량의 데이터를 다룰 때 메모리 절약을 위해 사용

In [4]:
list1 = [1, 2, 3]
print('list1: ', type(list1))

# list를 ndarray로 변경
array1 = np.array(list1)
print('array1: ', type(array1))

print(array1, 'array1 내의 데이터 타입: ', array1.dtype)

list1:  <class 'list'>
array1:  <class 'numpy.ndarray'>
[1 2 3] array1 내의 데이터 타입:  int64


In [5]:
# int형과 문자열이 섞여있는 list2를 ndarray로 변환
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, 'array2 내의 데이터 타입: ', array2.dtype)

# int형과 float형이 섞여 있는 list3를 ndarray로 변환
list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, 'array3 내의 데이터 타입: ', array3.dtype)

['1' '2' 'test'] array2 내의 데이터 타입:  <U21
[1. 2. 3.] array3 내의 데이터 타입:  float64


In [6]:
# int32 -> float64로 변환
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

# 다시 float64 -> int32로 변환
array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

# float64 -> int32로 변환
array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


## 3. ndarray를 편리하게 생성하기 - arange, zeros, ones  
특정 크기와 차원을 가진 ndarray를 연속값이나 0이나 1로 초기화해 쉽게 생성할 수 있다.  
주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우 사용한다.  

- **np.arange()**  
: default 함수 인자는 stop값, 함수 인자로 stop값만 부여하면 0부터 stop값의 -1까지의 값을 순차적으로 ndarray의 데이터값으로 변환해 줌  
start값을 부여하면 0이 아닌 start값부터 시작  
- **np.zeros()**  
: 함수 인자로 튜플 형태의 shape값을 입력하면 모든 값을 0으로 채운 해당 shape를 가진 ndarray를 반환  
함수 인자로 dtype을 정해주지 않으면 default로 float64 형의 데이터로 ndarray를 채움  
- **np.ones()**  
: 함수 인자로 튜플 형태의 shape값을 입력하면 모든 값을 1로 채운 해당 shape를 가진 ndarray를 반환  
함수 인자로 dtype을 정해주지 않으면 default로 float64 형의 데이터로 ndarray를 채움

In [13]:
# arange()에 stop값만 지정
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype)
print(sequence_array.shape)

# arange()에 start값과 stop값을 모두 지정
sequence_array2 = np.arange(1, 10)
print(sequence_array2)
print(sequence_array2.dtype)
print(sequence_array2.shape)

[0 1 2 3 4 5 6 7 8 9]
int64
(10,)
[1 2 3 4 5 6 7 8 9]
int64
(9,)


In [17]:
# zeros()
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype)
print(zero_array.shape)

# ones()
one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype)
print(one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32
(3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64
(3, 2)


## 4. ndarray의 차원과 크기를 변경하는 reshape()  
- **ndarray.reshape()**  
: 변환을 원하는 크기를 함수 인자로 부여하면 ndarray를 특정 차원 및 크기로 변환해 줌  
만약 지정된 사이즈로 변경이 불가능할 경우 오류 발생  

*reshape() 인자에 -1 적용하기*  
(예시) ndarray.reshape(-1, 5)의 경우, ndarray와 호환될 수 있는 2차원 ndarray로 변환하되, 고정된 5개 칼럼에 맞는 로우를 자동으로 생성해 변환하라는 의미  

**ndarray.reshape(-1, 1)**  
: 원본 ndarray가 어떤 형태라도 2차원이고, 여러 개의 로우를 가지되 반드시 1개 컬럼을 가진 ndarray로 변환됨을 보장함

In [20]:
# 0~9까지의 1차원 ndarray 생성
array1 = np.arange(10)
print('array1:\n', array1)

# 2행 5열 형태의 2차원 ndarray로 변환
array2 = array1.reshape((2, 5))
print('array2:\n', array2)

# 5행 2열 형태의 2차원 ndarray로 변환
array3 = array1.reshape((5, 2))
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [21]:
# 변경 불가능한 사이즈로 reshape()
array4 = array1.reshape((4, 3))
print('array4:\n', array4)

ValueError: ignored

In [23]:
# reshape() 인자에 -1 적용
array1 = np.arange(10)
print(array1)
print('array1 shape: ', array1.shape)

array2 = array1.reshape((-1, 5))
print('array2 shape: ', array2.shape)

array3 = array1.reshape((5, -1))
print('array3 shape: ', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array1 shape:  (10,)
array2 shape:  (2, 5)
array3 shape:  (5, 2)


In [24]:
# 변경 불가능한 사이즈로 reshape()
array4 = array1.reshape((-1, 4))
print(array4)

ValueError: ignored

In [29]:
# 3차원 ndarray 만들기
array1 = np.arange(8)
array3d = array1.reshape((2, 2, 2))
print('array3d:\n', array3d)

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape((-1, 1))
print('array5:\n', array5)
print('array5 shape: ', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
print('array1:\n', array1)
print('array1 shape: ', array1.shape)
array6 = array1.reshape((-1, 1))
print('array6:\n', array6)
print('array6 shape: ', array6.shape)

array3d:
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
array5:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
array5 shape:  (8, 1)
array1:
 [0 1 2 3 4 5 6 7]
array1 shape:  (8,)
array6:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
array6 shape:  (8, 1)
