# 4 NumPy 기본: 배열과 벡터 계산

NumPy(Numerical Python)의 줄임말인 NumPy는 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지다.

NumPy에서 제공되는 기능은 다음과 같다.

- 빠르고 메모리를 효율적으로 사용하며, 벡터 산술연산과 세련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarry
- 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수 발생기, 푸리에 변환 기능
- C, C++, 포트란으로 쓰여진 코드를 통합하는 도구

numpy는 연산을 위한 기본 라이브러리를 제공하므로 대부분의 데이터 분석(특히 구조화된 데이터나 표 형식의 데이터)은 일반적인 작업을 단순하고 간단하게 만들어주는 풍부하면서도 고수준인 인터페이스를 제공하는 pandas와 함께 사용한다.

In [1]:
import numpy as np

## 4.1 NumPy ndarray : 다차원 배열 객체

NumPy의 핵심 기능중 하나는 N차원의 배열 객체(ndarray)이다.

ndarray는 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다.

In [2]:
data = np.random.rand(2, 3)
type(data)

numpy.ndarray

In [6]:
data

array([[ 0.3883153 ,  0.10337439,  0.26328755],
       [ 0.10669809,  0.10971572,  0.56095551]])

In [7]:
data * 10

array([[ 3.88315299,  1.03374394,  2.6328755 ],
       [ 1.06698093,  1.09715722,  5.6095551 ]])

In [8]:
data + 10

array([[ 10.3883153 ,  10.10337439,  10.26328755],
       [ 10.10669809,  10.10971572,  10.56095551]])

In [9]:
data * data

array([[ 0.15078877,  0.01068627,  0.06932033],
       [ 0.01138448,  0.01203754,  0.31467108]])

In [10]:
data + data

array([[ 0.7766306 ,  0.20674879,  0.5265751 ],
       [ 0.21339619,  0.21943144,  1.12191102]])

In [11]:
type(data)

numpy.ndarray

###  4.1.1 ndarray 생성

In [None]:
# ndarray 생성방법 : 배열 주입

In [13]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [None]:
# ndarray 생성방법 : 2차원 배열 주입

In [14]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
# 배열의 차원을 보여준다.

In [15]:
arr2.ndim

2

In [None]:
# 배열의 차원의 크기를 보여준다.

In [16]:
arr2.shape

(2, 4)

In [None]:
# 배열 원소의 자료형을 보여준다.

In [19]:
arr1.dtype

dtype('float64')

In [20]:
arr2.dtype

dtype('int64')

In [None]:
# ndarray 생성방법 : 0으로 채워진 1차원 배열 만들기

In [21]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [None]:
# ndarray 생성방법 : 0으로 채워진 2차원 배열 만들기

In [22]:
np.zeros((3, 6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [None]:
# ndarray 생성방법 : 초기화되지 않은 3차원 배열 만들기

In [23]:
np.empty((2, 3, 2))

array([[[  0.00000000e+000,   1.37229055e-315],
        [  1.04664559e-028,  -2.36120448e+220],
        [ -1.70345980e-305,   3.96590182e-152]],

       [[  7.92807533e-152,  -1.07266725e+208],
        [ -5.50870351e-074,   7.52736939e+252],
        [  8.95402175e-096,   8.34424258e-309]]])

In [None]:
# ndarray 생성방법 : 0부터 증가하는 숫자의 1차원 배열 만들기

In [24]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### 4.1.2 ndarray의 자료형

In [None]:
# dtype은 ndarray가 특정 데이터를 메모리에서 해석하기 위해 필요한 정보를 담고있는 특수한 객체이다.

In [17]:
arr1 = np.array([1, 2, 3], dtype = np.float64)
arr1

array([ 1.,  2.,  3.])

In [18]:
arr2 = np.array([1, 2, 3], dtype = np.int32)
arr2

array([1, 2, 3], dtype=int32)

dtype은 디스크에서 데이터를 읽고 쓰기 편하도록 하위 레벨의 표현에 직접적으로 맞춰져 있으며, C나 포트란 같은 저수준 언어로 작성된 코드와 쉽게 연동이 가능하다.

In [None]:
# astype메소드를 사용하여 배열의 dtype을 명시적으로 변경할 수 있다.

In [19]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [51]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [None]:
# 부동소수점 숫자를 정수형으로 변환하면 소수점 아랫자리는 버려진다.

In [34]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [35]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [None]:
# 숫자형식의 문자를 담고있어도 astype메소드를 이용하여 숫자로 변환할 수 있다.

In [36]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'42'], 
      dtype='|S4')

In [37]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [None]:
# 만일 변환될 수 없는 형태라면 TypeError 예외가 발생한다.

In [38]:
numeric_strings = np.array(['1.25', '-9.6', 'r42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'r42'], 
      dtype='|S4')

In [39]:
numeric_strings.astype(float)

ValueError: could not convert string to float: 'r42'

In [None]:
# dtype으로 사용할 수 있는 축약 코드도 있다.

In [40]:
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

### 4.1.3 배열과 스칼라 간의 연산

배열은 for문을 작성하지 않고 데이터를 일괄처리할 수 있기 때문에 중요하다. 이를 벡터화라고 하는데, 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용된다.

In [48]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [49]:
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [50]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [51]:
# 스칼라 값에 대한 산술연산은 각 요소로 전달된다

In [52]:
1 / arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [54]:
arr ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

### 4.1.4 색인과 슬라이싱 기초

데이터의 부분 집합이나 개별 요소를 선택하기 위한 수많은 방법이 존재한다.

In [55]:
#1차원 배열은 단순하며 표면적으로는 파이썬의 리스트와 유사하게 동작한다.

In [56]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [57]:
arr[5]

5

In [58]:
arr[5:8]

array([5, 6, 7])

In [None]:
# 배열 조각(슬라이스:slice)에 스칼라 값을 대입하면 값이 슬라이스 영역 전체로 전파된다.
# 이를 브로드캐스팅이라고 한다.

In [60]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [61]:
# 리스트와의 중요한 차이점은 슬라이스는 원본 배열의 뷰(View)라는 점이다.
# 뷰는 원본데이터를 보여주는 것일 뿐이기 때문에 뷰를 변경하면 그대로 원본 데이터에 반영된다.

In [62]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [63]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [64]:
# NumPy는 대용량 데이터 처리를 염두에 두고 설계되었기 때문에 성능과 메모리 문제로 복사를 자제하고 있다.
# 만일 복사본을 얻고 싶다면 copy메서드를 이용하여 복사할 수 있다.

In [65]:
arr_slice = arr[5:8].copy()
arr_slice[1] = 54321
arr_slice

array([   12, 54321,    12])

In [66]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [67]:
# 2차원 배열에서 각 색인에 해당하는 요소는 스칼라 값이 아니라 1차원 배열이다.

In [68]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [69]:
# 개별 요소 다음 표현식으로 접근이 가능하다

In [70]:
arr2d[0][2]

3

In [71]:
arr2d[0, 2]

3

In [72]:
# 다차원 배열에서 마지막 색인을 생략하고 값을 대입하면 브로드캐스팅이 발생한다.

In [73]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [74]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [75]:
arr3d[0, 0]

array([1, 2, 3])

In [76]:
arr3d[0, 0, 0]

1

In [77]:
arr3d[0, 0] = 1
arr3d

array([[[ 1,  1,  1],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [78]:
arr3d[1] = 100
arr3d

array([[[  1,   1,   1],
        [  4,   5,   6]],

       [[100, 100, 100],
        [100, 100, 100]]])

In [79]:
# 크기가 같다면 배열을 대입할 수 있다.

In [83]:
arr3d[0, 0] = [1, 2, 3]
arr3d

array([[[  1,   2,   3],
        [  4,   5,   6]],

       [[100, 100, 100],
        [100, 100, 100]]])

In [84]:
arr3d[1] = [[7, 8, 9], [10, 11, 12]]
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [85]:
# 파이썬의 리스트 같은 1차원 객체처럼 ndarray는 익숙한 문법으로 슬라이싱할 수 있다.

In [86]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [87]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [88]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [89]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [90]:
# 다차원 슬라이싱도 가능하다

In [91]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [92]:
# 색인과 슬라이스를 같이 사용할 수도 있다.

In [94]:
arr2d[1, 1:]

array([5, 6])

In [97]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [98]:
# 슬라이싱한 결과 뷰에 값을 대입할 수 있다.

In [100]:
arr2d[:, :1] = 0
arr2d

array([[0, 2, 3],
       [0, 5, 6],
       [0, 8, 9]])