머신러닝의 주요 알고리즘은 선형대수와 통계 등에 기반합니다. 특히 선형대수는 수학뿐만 아니라 다른 영역의 자연과학, 공학에서 널리 사용되고 있습니다. Numerical Python을 의미하는 넘파이(Numpy)는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지입니다. 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하므로 빠를 배열 연산 속도를 보장합니다. 대량 데이터 기반의 과학과 공학 프로그램은 빠른 계산 능력이 매우 중요합니다. 때문에 파이썬 기반의 많은 과학과 공학 패키지는 넘파이에 의존하고 있습니다.

넘파이 또한 C/C++과 같은 저수준 언어 기반의 호환 API를 제공합니다. 기존 C/C++ 기반의 타프로그램과 데이터를 주고받거나 API를 호출해 쉽게 통합할 수 있는 기능을 제공합니다. 넘파이는 매우 빠른 배열 연산을 보장해 주지만, 파이썬 언어 자체가 가지는 수행 성능의 제약이 있으므로 수행 성능이 매우 중요한 부분은 C/C++ 기반의 코드로 작성하고 이를 넘파이에서 호출하는 방식으로 쉽게 통합할 수 있습니다. 구글의 대표적인 딥러닝 프레임워크인 텐서플로는 이러한 방식으로 배열 연산 수행속도를 개선하고 넘파이와도 호환될 수 있게 작성됐습니다.

넘파이는 배열 기반의 연산은 물론이고 다양한 데이터 핸들링 기능을 제공합니다. 많은 파이썬 기반의 패키지가 넘파이를 이용해 데이터 처리를 수행하지만, 편의성과 다양한 API 지원 측면에서 아쉬운 부분이 많습니다. 일반적으로 데이터는 2차원 형태의 행과 열로 이뤄졌으며, 이에 대한 다양한 가공과 변환, 여러가지 통계용 함수의 적용등이 필요합니다. 이러한 부분에서 넘파이는 파이썬의 대표적인 데이터 처리 패키지인 판다스의 편리성에는 미치지 못하는 게 사실입니다. 

# 넘파이 ndarray 개요

In [1]:
import numpy as np

넘파이의 기반 데이터 타입은 ndarray 입니다. ndarray를 이용해 넘파이에서 다차원(Multi-dimension) 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있습니다.
넘파이 array() 함수는 파이썬의 리스트와 같은 다양한 인자를 입력 받아서 ndarray로 변환하는 기능을 수행합니다. 생성된 ndarray 배열의 shape변수는 ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가지고 있으며 이를 통해 ndarray 배열의 차원까지 알 수 있습니다.

In [3]:
array1 = np.array([1,2,3])
print('array1 type : ',type(array1))
print('array1 array 형태 : ',array1.shape)

array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2 type : ',type(array2))
print('array2 array 형태 : ', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type : ',type(array3))
print('array3 array 형태 : ',array3.shape)

array1 type :  <class 'numpy.ndarray'>
array1 array 형태 :  (3,)
array2 type :  <class 'numpy.ndarray'>
array2 array 형태 :  (2, 3)
array3 type :  <class 'numpy.ndarray'>
array3 array 형태 :  (1, 3)


np.array() 사용법은 매우 간단합니다. ndarray로 변환을 원하는 객체를 인자로 입력하면 ndarray를 반환합니다. ndarray.shape는 ndarray의 차원과 크기를 튜플 형태로 나타내 줍니다.

In [4]:
###array차원을  ndarray.ndim을 이용해 확인해 보기.
print('array1 : {:0}차원, array2: {:0}차원, array3 : {:0}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1 : 1차원, array2: 2차원, array3 : 2차원


array1은 1차원, array3는 2차원임을 알 수 있습니다. array()함수의 인자로는 파이썬의 리스트 객체가 주로 사용됩니다. 리스트 []는 1차원이고, 리스트의 리스트 [[]]는 2차원과 같은 형태로 배열의 차원과 크기를 쉽게 표현할 수 있기 때문입니다.

# ndarray의 데이터 타입

ndarry내의 데이터값은 숫자 값, 문자열 값, 불 값 등이 모두 가능합니다. 숫자형의 경우 int형, unsigned int형, float형, 그리고 이보다 더 큰 숫자 값이나 정밀도를 위해 complex 타입도 제공합니다.

ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능합니다. 즉, 한 개의 ndarray 객체에 int와 float가 함께 있을 수 없습니다. ndarray내의 데이터 타입은 dtype 속성으로 확인할 수 있습니다.

In [6]:
list1=[1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1,array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


서로 다른 데이터 타입을 가질 수 있는 리스트와 다르게 ndarray 내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다고 했는데, 만약 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용합니다. int형과 string형이 섞여있는 리스트와 int형와 float형이 섞여 있는 리스트를 ndarray로 변경하면 데이터값의 타입이 어떻게 되는지 확인해 보겠습니다.

In [8]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2,array2.dtype)

list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3,array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


int형 값과 문자열이 섞여 있는 list2를 ndarray로 변환한 array2는 숫자형 값 1,2가 모두 문자열 값인 '1','2'로 변환됐습니다. 이처럼 ndarry는데이터값이 모두 같은 데이터 타입이어야 하므로 서로 다른 데이터 타입이 섞여 있을 경우 데이터 타입이 더 큰 데이터 타입으로 변환되어 int형이 유니코드 문자열 값으로 변환됐습니다. int형과 float형이 섞여있는 list3의 경우도 int 1,2가 모두 1.2.인 float64형으로 변환됐습니다.

ndarrat 내 데이터값으 타입 변경도 astype() 메서드를 이용해 할 수 있습니다. astype()에 인자로 원하는 타입을 문자열로 지정하면 됩니다. 이렇게 데이터 타입을 변경하는 경우는 대용량 데이터의 ndarray를 만들 때 많은 메모리가 사용되는데, 메모리를 절약해야 할 때 보통 이용됩니다. 가령 int형으로 충분한 경우인데, 데이터 타입이 float라면 int형으로 바꿔서 메모리를 절약할 수 있습닏.

메모리를 얼마나 절약할 수 있는지 의구심이 들 수도 있지만, 파이썬 기반의 머신러닝 알고리즘은 대부분 메모리로 데이터를 전체 로딩한 다음 이를 기반으로 알고리즘을 적용하기 때문에 대용량의 데이터를 로딩할 때는 수행속도가 느려지거나 메모리 부족으로 오류가 발생할 수 있습니다. 

In [9]:
"""
이번에 할 예제는 int형 데이터를 float64로 변환하고, 다시 float64를 int32로 변경합니다. 
float를 int형으로 변경할 때 소수점 이하는 당연히 모두 없어집니다.
"""
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float,array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1,array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2,array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


# ndarray를 편리하게 생성하기 - arange, zeros, ones

특정 크기와 차원을 가진 ndarray를 연속값이나 0또는 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우가 발생할 수 있습니다. 이 경우 arange(), zeros(), ones()를 이용해 쉽게 ndarray를 생성할 수 있습니다. 주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일관적으로 초기화해야 할 경우에 사용됩니다.

arange()는 함수 이름에서 알 수 있듯이 파이썬 표준 함수인 range()와 유사한 기능을 합니다. 쉽게 생각하면 array를 range()로 표현하는 것입니다. 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarry의 데이터값으로 변환해 줍니다.

In [10]:
sequence_array = np.array(10)
print(sequence_array)
print(sequence_array.dtype,sequence_array.shape)

10
int32 ()


default 함수 인자는 atop 값이며, 0부터 stip 값인 10에서 -1을 더한 9까지의 연속 숫자 값으로 구성된 1차원 ndarray를 만들어 줍니다. 여기서는 stop값만 부여했으나 range와 유사하게 start 값도 부여해 0이 아닌 다른 값브터 시작한 연속 값을 부여할 수도 있습니다.

zeros()는 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape를 가진 ndarray를 반환합니다. 
유사하게 ones()는 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 1로 채운 해당 shape를 가진 ndarray를 반환합니다. 함수 인자로 dtype을 정해주지 않으면 default로 float64 형의 데이터로 ndarray를 채웁니다.

In [12]:
zero_array = np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)
