NumPy(Numerical Python)의 줄임말인 NumPy는 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지다.

NumPy에서 제공되는 기능은 다음과 같다.

- 빠르고 메모리를 효율적으로 사용하며, 벡터 산술연산과 세련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarry
- 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수 발생기, 푸리에 변환 기능
- C, C++, 포트란으로 쓰여진 코드를 통합하는 도구

numpy는 연산을 위한 기본 라이브러리를 제공하므로 대부분의 데이터 분석(특히 구조화된 데이터나 표 형식의 데이터)은 일반적인 작업을 단순하고 간단하게 만들어주는 풍부하면서도 고수준인 인터페이스를 제공하는 pandas와 함께 사용한다.

In [4]:
import numpy as np

# 4.1 NumPy ndarray : 다차원 배열 객체

NumPy의 핵심 기능중 하나는 N차원의 배열 객체(ndarray)이다.

ndarray는 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다.

In [7]:
data = np.random.rand(2, 3)
type(data)

numpy.ndarray

In [8]:
data

array([[ 0.87459198,  0.8904681 ,  0.81955027],
       [ 0.17990988,  0.66236004,  0.06226581]])

In [9]:
data * 10

array([[ 8.74591979,  8.90468095,  8.19550267],
       [ 1.79909876,  6.62360043,  0.62265814]])

In [10]:
data + 10

array([[ 10.87459198,  10.8904681 ,  10.81955027],
       [ 10.17990988,  10.66236004,  10.06226581]])

In [11]:
data * data

array([[ 0.76491113,  0.79293343,  0.67166264],
       [ 0.03236756,  0.43872083,  0.00387703]])

In [12]:
data + data

array([[ 1.74918396,  1.78093619,  1.63910053],
       [ 0.35981975,  1.32472009,  0.12453163]])

##  4.1.1 ndarray 생성

In [15]:
# ndarray 생성방법 : 배열 주입
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [16]:
# ndarray 생성방법 : 2차원 배열 주입
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [17]:
# 배열의 차원을 보여준다.
arr2.ndim

2

In [18]:
# 배열의 차원의 크기를 보여준다.
arr2.shape

(2, 4)

In [19]:
# 배열 원소의 자료형을 보여준다.
arr1.dtype

dtype('float64')

In [20]:
arr2.dtype

dtype('int64')

In [21]:
# ndarray 생성방법 : 0으로 채워진 1차원 배열 만들기
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [22]:
# ndarray 생성방법 : 0으로 채워진 2차원 배열 만들기
np.zeros((3, 6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [23]:
# ndarray 생성방법 : 초기화되지 않은 3차원 배열 만들기
np.empty((2, 3, 2))

array([[[  0.00000000e+000,   1.37229055e-315],
        [  1.04664559e-028,  -2.36120448e+220],
        [ -1.70345980e-305,   3.96590182e-152]],

       [[  7.92807533e-152,  -1.07266725e+208],
        [ -5.50870351e-074,   7.52736939e+252],
        [  8.95402175e-096,   8.34424258e-309]]])

In [24]:
# ndarray 생성방법 : 0부터 증가하는 숫자의 1차원 배열 만들기
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

# 4.1.2 ndarray의 자료형

In [26]:
# dtype은 ndarray가 특정 데이터를 메모리에서 해석하기 위해 필요한 정보를 담고있는 특수한 객체이다.
arr1 = np.array([1, 2, 3], dtype = np.float64)
arr1

array([ 1.,  2.,  3.])

In [27]:
arr2 = np.array([1, 2, 3], dtype = np.int32)
arr2

array([1, 2, 3], dtype=int32)

dtype은 디스크에서 데이터를 읽고 쓰기 편하도록 하위 레벨의 표현에 직접적으로 맞춰져 있으며, C나 포트란 같은 저수준 언어로 작성된 코드와 쉽게 연동이 가능하다.

In [50]:
# astype메소드를 사용하여 배열의 dtype을 명시적으로 변경할 수 있다.
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [51]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [52]:
# 부동소수점 숫자를 정수형으로 변환하면 소수점 아랫자리는 버려진다.
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [53]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [54]:
# 숫자형식의 문자를 담고있어도 astype메소드를 이용하여 숫자로 변환할 수 있다.
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'42'], 
      dtype='|S4')

In [55]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [62]:
# 만일 변환될 수 없는 형태라면 TypeError 예외가 발생한다.
numeric_strings = np.array(['1.25', '-9.6', 'r42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'r42'], 
      dtype='|S4')

In [63]:
numeric_strings.astype(float)

ValueError: could not convert string to float: 'r42'

In [64]:
# dtype으로 사용할 수 있는 축약 코드도 있다.
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)