<a href="https://colab.research.google.com/github/KimYongHwi/ml_definitive_guide_study/blob/main/2%EC%9E%A5_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 머신러닝을 위한 numpy와 pandas의 중요성
- 머신러닝 애플리케이션 구현에서 다양한 데이터의 추출/가공/변환이 상당한 영역을 차지하고 데이터 처리 부분은 대부분 numpy와 pandas를 이용한다.
- sklearn이 numpy 기반에서 작성됐기 때문에 numpy의 기본 프레임워크를 이해하지 못하면 sklearn 역시 실제 구현에서 많은 벽에 부딪힐 수 있다.
- sklearn은 API 구성이 매우 간결하고 직관적이여서 이를 이용한 개발 또한 상대적으로 쉽다.

In [1]:
import numpy as np

In [15]:
list1 = [1, 2, 3]
print("list1", list1)
print("list1 type", type(list1))

array1 = np.array(list1)
print("array1", array1)
print("array1 type", type(array1))

list1 [1, 2, 3]
list1 type <class 'list'>
array1 [1 2 3]
array1 type <class 'numpy.ndarray'>


### ndarray type
- ndarray내의 데이터값은 숫자 값, 문자열 값, 불 값 등이 모두 가능하다.
- 숫자형의 경우 int형, unsigned int형, float형, 그리고 이보다 더 큰 숫자 값이나 정밀도를 위해 complex 타입도 제공한다
- ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다.
- ndarray내의 데이터 타입은 `ndarray.dtype`으로 확인할 수 있다.

### ndarray type 변환
- 변경을 원하는 타입을 `astype()`에 인자로 입력
- 대용량 데이터를 ndarray로 만들 때 메모리를 절약하기 위해 자주 사용
- 0, 1, 2와 같이 크지 않은 범위의 숫자를 위해서 64bit float형 보다는 8bit 또는 16bit의 integer 형으로 변환하는 것이 메모리를 절약하게 됨
- 대용량 데이터를 다룰 시 메모리 절약을 위해서 형변환을 특히 고려해야함

In [22]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [24]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


- `astype()`을 통한 타입 변환

In [26]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1= array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2= array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### numpy의 axis 축
- ndarray의 shape은 행, 열, 높이 단위로 부여되는 것이 아니라 axis0, axis1, axis2와 같이 axis 단위로 부여된다.
- axis 0: 행
- axis 1: 열

In [17]:
array1 = np.array([1, 2, 3])
print('array1 type', type(array1))
print('array1 array 형태: ', array1.shape)

array2 = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
print('array2 type', type(array2))
print('array2 array 형태: ', array2.shape)

array3 = np.array([[[1, 2, 3]]])
print('array3 type', type(array3))
print('array3 array 형태: ', array3.shape)

array1 type <class 'numpy.ndarray'>
array1 array 형태:  (3,)
array2 type <class 'numpy.ndarray'>
array2 array 형태:  (2, 3)
array3 type <class 'numpy.ndarray'>
array3 array 형태:  (1, 1, 3)


In [20]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3:  3차원


- ndarray에서 axis 기반의 연산 함수

In [28]:
array2 = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

print('sum: ', array2.sum())
print('sum(axis=0): ', array2.sum(axis=0)) # 행 방향 sum
print('sum(axis=1): ', array2.sum(axis=1)) # 열 방향 sum

sum:  21
sum(axis=0):  [5 7 9]
sum(axis=1):  [ 6 15]


### ndarray를 편리하게 생성하기
- 특정 크기와 차원을 가진 ndarray를 연속값이나 0또는 1로 초기화 생성해야 할 경우 arange(), zeros(), ones()를 이용해 쉽게 ndarray를 생성할 수 있다.
- 주로 테스트용 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우에 사용한다.
    

In [30]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [32]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


In [33]:
one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### ndarray의 차원과 크기를 변경하는 reshape
- reshape는 ndarray를 특정 차원 및 형태로 변화한다.
- reshape(-1, 5)와 같이 인자에 -1을 부여하면 -1에 해당하는 axis의 크기는 가변적이되 -1이 아닌 인자값에 해당하는 axis 크기는 인자값으로 고정하여 ndarray의 shape를 변환한다.
- reshape()는 reshape(-1, 1), reshape(-1)과 같은 형식으로 변환이 요구되는 경우가 많은데 주로 머신러닝 API의 인자로 1차원 ndarray를 명확하게 2차원 ndarray로 변환하여 입력하기를 원하거나, 또는 그 반대의 경우가 있을 경우 reshape()을 이용하여 ndarray의 형태를 변환시켜주는데 사용된다.

In [41]:
array1 = np.arange(10)
print('array1: \n', array1)
print()
array2 = array1.reshape(2, 5)
print('array2: \n', array2)
print()
array3 = array1.reshape(5, 2)
print('array3: \n', array3)

array1: 
 [0 1 2 3 4 5 6 7 8 9]

array2: 
 [[0 1 2 3 4]
 [5 6 7 8 9]]

array3: 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- reshape()에 -1 인자값을 부여하여 특정 차원으로 고정된 가변적인 ndarray형태 변환

In [43]:
array1 = np.arange(10)
print(array1)

# 열 axis 크기는 5로 고정하고 행 axis 크기를 이에 맞춰 자동으로 변환, 즉 (2, 5) 형태의 shape으로 변환
array2 = array1.reshape(-1, 5)
print('array2 shape: ', array2.shape)
print('array2: \n', array2)

# 행 axis 크기는 5로 고정하고 열 axis 크기는 이제 맞춰 자동으로 변환, 즉 (5, 2) 형태의 shape으로 변환
array3 = array1.reshape(5, -1)
print('array3 shape: ', array3.shape)
print('array3: \n', array3)


[0 1 2 3 4 5 6 7 8 9]
array2 shape:  (2, 5)
array2: 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3 shape:  (5, 2)
array3: 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- reshape()는 (-1, 1), (-1,)와 같은 형태로 주로 사용됨
    - 1차원 ndarray를 2차원으로 또는 2차원 ndarray를 1차원으로 변환 시 사용

In [47]:
array1 = np.arange(5)

# 1차원 ndarray를 2차원으로 변환하되, 열 axis크기는 반드시 1이여야 함
array2d_1 = array1.reshape(-1, 1)
print('array2d_1 shape: ', array2d_1.shape)
print('array2d_1: \n', array2d_1)

# 2차원 ndarray를 1차원으로 변환
array1d = array2d_1.reshape(-1)
print('array1d shape: ', array1d.shape)
print('array1d: \n', array1d)

array2d_1 shape:  (5, 1)
array2d_1: 
 [[0]
 [1]
 [2]
 [3]
 [4]]
array1d shape:  (5,)
array1d: 
 [0 1 2 3 4]


In [None]:
# -1 을 적용하여도 변환이 불가능한 형태로의 변환을 요구할 경우 오류 발생.
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

In [None]:
# 반드시 -1 값은 1개의 인자만 입력해야 함. 
array1.reshape(-1, -1)