# NumPy 배열 사용하기

데이터는 수많은 숫자들로 이루어져 있다. 이 많은 숫자들을 효율적으로 계산하기 위해서는 관련된 데이터를 모두 하나의 변수에 넣고 처리해야 한다. 하나의 변수에 여러 개의 데이터를 넣는 방법으로 리스트를 사용할 수도 있지만 리스트는 속도가 느리고 메모리를 많이 차지하는 단점이 있다. 더 적은 메모리를 사용해서 빠르게 데이터를 처리하려면 배열(array)을 사용해야 한다.

배열은 같은 자료형의 데이터를 정해진 갯수만큼 모아놓은 것이다. 배열은 다음과 같은 점에서 리스트와 다르다.

1. 모든 원소가 같은 자료형이어야 한다.
2. 원소의 갯수를 바꿀 수 없다.

파이썬은 자체적으로 배열 자료형을 제공하지 않는다. 따라서 배열을 구현한 다른 패키지를 임포트해야 한다. 파이썬에서 배열을 사용하기 위한 표준 패키지는 NumPy(보통 "넘파이"라고 발음한다)이다.

NumPy는 2005년에 Travis Oliphant가 발표한 수치해석용 Python 패키지이다. 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용된다. 내부적으로는 BLAS 라이브러리와 LAPACK 라이브러리에 기반하고 있어서 C로 구현된 CPython에서만 사용할 수 있다.
    
NumPy의 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 Python 반복문에 비해 속도가 빠르며 벡터화 연산(vectorized operation)을 사용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있다. 또한 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 짧고 간단한 코드로 복잡한 수식을 계산할 수 있다.

## NumPy

    - 수치해석용 Python 라이브러리
    - ndarray 다차원 배열 자료 클래스 제공
    - BLAS/LAPACK 기반
    - CPython에서만 사용 가능
    - 내부 반복문 사용으로 빠른 배열 연산 가능
    - 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능

In [1]:
import numpy as np

## 1차원 배열 만들기

NumPy의 array라는 함수에 리스트를 넣으면 배열로 변환해 준다. 따라서 1 차원 배열을 만드는 방법은 다음과 같다.

In [2]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
type(a)

numpy.ndarray

만들어진 ndarray 객체의 표현식(representation)을 보면 바깥쪽에 array()란 것이 붙어 있을 뿐 리스트와 동일한 구조처럼 보인다. 그러나 배열 객체와 리스트 객체는 많은 차이가 있다.

우선 리스트 클래스 객체는 각각의 원소가 다른 자료형이 될 수 있다. 그러나 배열 객체 객체는 C언어의 배열처럼 연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 한다. 이러한 제약을 가지는 대신 내부의 원소에 대한 접근과 반복문 실행이 빨라진다.

## 벡터화 연산

배열 객체는 배열의 각 원소에 대한 연산을 한 번에 처리하는 벡터화 연산(vectorized operation)을 지원한다는 점이다. 예를 들어 다음과 같은 데이터를 모두 2배 해야하는 경우를 생각하자.

In [4]:
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

for 반복문을 사용하면 다음과 같이 구현할 수 있다.

In [6]:
b = []

for ai in a:
    b.append(ai * 2)

b

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

하지만 벡터화 연산을 사용하면 다음과 같이 for 반복문 없이 곱하기 연산을 통째로 할 수 있다. 계산 속도도 반복문을 썼을 때보다 훨씬 빠르다.

In [7]:
x = np.array(a)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
x * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

참고로 일반적인 리스트 객체에 정수를 곱하면 객체의 크기가 정수배 만큼으로 증가한다.

In [9]:
L = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(2 * L)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


벡터화 연산은 모든 종류의 수학 연산에 대해 적용된다.

In [10]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [11]:
2 * a + b

array([12, 24, 36])

In [12]:
np.exp(a)

array([  2.71828183,   7.3890561 ,  20.08553692])

In [13]:
np.log(b)

array([ 2.30258509,  2.99573227,  3.40119738])

In [14]:
np.sin(a)

array([ 0.84147098,  0.90929743,  0.14112001])

## 2차원 배열 만들기

"ndarray" 는 N-dimensional Array의 약자이다. 이름 그대로 배열 객체는 단순 리스트와 유사한 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원한다.

2차원 배열은 행렬(matrix)이라고도 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 한다.

다음과 같이 리스트의 리스트(list of list)를 이용하면 2차원 배열을 생성할 수 있다. 안쪽 리스트의 길이는 행렬의 열의 수 즉, 가로 크기가 되고 바깥쪽 리스트의 길이는 행렬의 행의 수, 즉 세로 크기가 된다. 예를 들어 2 x 3 배열은 다음과 같이 만든다.

In [15]:
b = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
b

array([[0, 1, 2],
       [3, 4, 5]])

In [16]:
len(b)

2

In [17]:
len(b[0])

3

### 연습문제1 

다음과 같은 행렬을 만든다.

10 20 30 40

50 60 70 80

In [24]:
q1 = np.array([[10, 20, 30, 40],[50, 60, 70, 80]])
q1

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [25]:
print(q1)

[[10 20 30 40]
 [50 60 70 80]]


## 3차원 배열 만들기

리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성할 수 있다.크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트의 길이 순서대로 표시한다. 예를 들어 2 x 3 x 4 배열은 다음과 같이 만든다.

In [26]:
c = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[11,12,13,14],[15,16,17,18],[19,20,21,22]]])   # 2 x 3 x 4 array
c

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [28]:
len(c)

2

In [29]:
len(c[0])

3

In [30]:
len(c[0][0])

4

## 배열의 차원과 크기 알아내기

배열의 차원 및 크기는 ndim 속성과 shape 속성으로 알 수 있다.

In [31]:
print(a.ndim)
print(a.shape)

1
(3,)


In [32]:
print(b.ndim)
print(b.shape)

2
(2, 3)


In [33]:
print(c.ndim)
print(c.shape)

3
(2, 3, 4)


## 배열의 인덱싱

배열 객체로 구현한 다차원 배열의 원소 하나 하나는 다음과 같이 콤마(comma ,)를 사용하여 접근할 수 있다. 콤마로 구분된 차원을 축(axis)이라고도 한다. 플롯의 x축과 y축을 떠올리면 될 것이다.

In [34]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [36]:
a[0, 0] # 첫번째 행의 첫번째 열

0

In [37]:
a[0, 1] # 첫번째 행의 두번째 열


1

In [38]:
a[-1, -1] # 마지막 행의 마지막 열

5

## 배열 슬라이싱

배열 객체로 구현한 다차원 배열의 원소 중 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용하면 된다.

In [39]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [40]:
a[0, :]  # 첫번째 행 전체

array([0, 1, 2, 3])

In [42]:
a[:, 1]  # 두번째 열 전체

array([1, 5])

In [43]:
a[1, 1:]  # 두번째 행의 두번째 열부터 끝열까지

array([5, 6, 7])

In [44]:
a[:2, :2]  

array([[0, 1],
       [4, 5]])

### 연습문제2

다음 행렬과 같은 행렬이 있다.

In [49]:
m = np.array([[ 0,  1,  2,  3,  4],
              [ 5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

1. 이 행렬에서 값 7 을 인덱싱한다.
2. 이 행렬에서 값 14 을 인덱싱한다.
3. 이 행렬에서 배열 [6, 7] 을 슬라이싱한다.
4. 이 행렬에서 배열 [7, 12] 을 슬라이싱한다.
5. 이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.

## 배열 인덱싱

NumPy 배열 객체의 또다른 강력한 기능은 팬시 인덱싱(fancy indexing)이라고도 부르는 배열 인덱싱(array indexing) 방법이다. 인덱싱이라는 이름이 붙었지만 사실은 데이터베이스의 질의(Query) 기능을 수행한다.

배열 인덱싱에서는 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또 다른 ndarray 배열을 받을 수 있다. 여기에서는 이 배열을 편의상 인덱스 배열이라고 부르겠다. 배열 인덱싱의 방식에은 불리안(Boolean) 배열 방식과 정수 배열 방식 두가지가 있다.

먼저 불리안 배열 인덱싱 방식은 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 한다.

예를 들어 다음과 같은 1차원 ndarray에서 홀수인 원소만 골라내려면 홀수인 원소에 대응하는 인덱스 값이 True이고 짝수인 원소에 대응하는 인덱스 값이 False인 인덱스 배열을 넣으면 된다.

In [50]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True, False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

조건문 연산을 사용하면 다음과 같이 간단하게 쓸 수 있다.

In [51]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

만일 np.array 가 아닌 일반적인 리스트 객체라면?

In [53]:
L[L % 2 == 0]

TypeError: unsupported operand type(s) for %: 'list' and 'int'

정수 배열 인덱싱에서는 인덱스 배열의 원소 각각이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수이여야 한다. 예를 들어 1차원 배열에서 홀수번째 원소만 골라내는 것은 다음과 같다

In [55]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) * 10
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([ 0, 20, 40, 60, 80])

In [59]:
a[[0, 2, 4, 6, 8]]

array([ 0, 20, 40, 60, 80])

이 때 정수 배열 인덱스의 크기는 원래의 배열 크기와 달라도 상관없다. 같은 원소를 반복해서 가리키는 경우에는 원래의 배열보다 더 커지기도 한다.

In [60]:
a = np.array([0, 1, 2, 3]) * 10
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([ 0,  0,  0,  0,  0,  0, 10, 10, 10, 10, 10, 20, 20, 20, 20, 20])

### 배열 인덱싱

    - 불리안(Boolean) 방식 배열 인덱싱
        - True인 원소만 선택
        - 인덱스의 크기가 배열의 크기와 같아야 한다.
        
    - 위치 지정 방식 배열 인덱싱
        - 지정된 위치의 원소만 선택
        - 인덱스의 크기가 배열의 크기와 달라도 된다.

## More Indexing Help

Indexing a 2d matrix can be a bit confusing at first, especially when you start to add in step size. Try google image searching NumPy indexing to fins useful images, like this one:

<img src= 'http://memory.osu.edu/classes/python/_images/numpy_indexing.png' width=500/>

# Numpy 배열 생성과 변형

## NumPy의 자료형

NumPy의 ndarray클래스는 포함하는 모든 데이터가 같은 자료형(data type)이어야 한다. 또한 자료형 자체도 일반 파이썬에서 제공하는 것보다 훨씬 세분화되어 있다.

NumPy의 자료형은 dtype 이라는 인수로 지정한다. dtype 인수로 지정할 값은 다음 표에 보인것과 같은 dtype 접두사로 시작하는 문자열이고 비트/바이트 수를 의미하는 숫자가 붙을 수도 있다.

ndarray 객체의 dtype 속성으로 자료형을 알 수 있다.

In [61]:
x = np.array([1, 2, 3])
x.dtype

dtype('int64')

만약 부동소수점을 사용하는 경우에는 무한대를 표현하기 위한 np.inf와 정의할 수 없는 숫자를 나타내는 np.nan 을 사용할 수 있다.

In [62]:
np.exp(-np.inf)

0.0

In [63]:
np.array([1, 0]) / np.array([0, 0])

  if __name__ == '__main__':
  if __name__ == '__main__':


array([ inf,  nan])

## 배열 생성

In [64]:
x = np.array([1, 2, 3])
x

array([1, 2, 3])

앞에서 파이썬 리스트를 NumPy의 ndarray 객체로 변환하여 생성하려면 array 명령을 사용하였다. 그러나 보통은 이러한 기본 객체없이 다음과 같은 명령을 사용하여 바로 ndarray 객체를 생성한다.

    - zeros, ones
    - zeros_like, ones_like
    - empty
    - arange
    - linspace, logspace
    - rand, randn

크기가 정해져 있고 모든 값이 0인 배열을 생성하려면 zeros 명령을 사용한다. dtype 인수가 없으면 정수형이 된다.

In [65]:
a = np.zeros(5) 
a

array([ 0.,  0.,  0.,  0.,  0.])

dtype 인수를 명시하면 해당 자료형 원소를 가진 배열을 만든다.

In [66]:
b = np.zeros((5,2), dtype="f8")
b

array([[ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.]])

문자열 배열도 가능하지만 모든 원소의 문자열 크기가 같아야 한다. 만약 더 큰 크기의 문자열을 할당하면 잘릴 수 있다.

In [67]:
c = np.zeros(5, dtype="S4")
c[0] = "abcd"
c[1] = "ABCDE"
c

array([b'abcd', b'ABCD', b'', b'', b''], 
      dtype='|S4')

1이 아닌 0으로 초기화된 배열을 생성하려면 ones 명령을 사용한다.

In [192]:
d = np.ones((2,3,4), dtype="i8")
d

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

`eye` returns a 2-D array with ones on the diagonal and zeros elsewhere.

In [193]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

`diag` extracts a diagonal or constructs a diagonal array.

In [196]:
y2 = np.array([4, 5, 6])
np.diag(y2)

array([[4, 0, 0],
       [0, 5, 0],
       [0, 0, 6]])

Create an array usign repeating list(or see np.tile)

In [199]:
np.array([1, 2, 3] * 3)

array([1, 2, 3, 1, 2, 3, 1, 2, 3])

Repeat elements of an array using `repeat`.

In [201]:
np.repeat([1, 2, 3], 3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

만약 크기를 튜플(tuple)로 명시하지 않고 특정한 배열 혹은 리스트와 같은 크기의 배열을 생성하고 싶다면 ones_like, zeros_like 명령을 사용한다.

In [69]:
e = range(10)
print(e)
f = np.ones_like(e, dtype="f")
f

range(0, 10)


array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.], dtype=float32)

In [74]:
list(e)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [73]:
list(f)

[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]

배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸린다. 이 시간을 단축하려면 생성만 하고 초기화를 하지 않는 empty 명령을 사용할 수 있다. empty 명령으로 생성된 배열에 어떤 값이 들어있을지는 알 수 없다.

In [75]:
g = np.empty((4,3))
g

array([[  0.00000000e+000,   3.10503637e+231,   2.20401202e-314],
       [  2.20236714e-314,   2.20401319e-314,   2.20402669e-314],
       [  0.00000000e+000,   0.00000000e+000,   2.13237407e-314],
       [  6.36598737e-311,   0.00000000e+000,   8.34402832e-309]])

arange 명령은 NumPy 버전의 range 명령이라고 볼 수 있다. 특정한 규칙에 따라 증가하는 수열을 만든다.

In [76]:
np.arange(10)  # 0 .. n-1  

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [77]:
np.arange(3, 21, 2)  # 시작, 끝(포함하지 않음), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

linspace 명령이나 logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.

In [78]:
np.linspace(0, 100, 5)  # 시작, 끝(포함), 갯수

array([   0.,   25.,   50.,   75.,  100.])

In [79]:
np.logspace(0, 4, 4, endpoint=False)

array([    1.,    10.,   100.,  1000.])

임의의 난수를 생성하고 싶다면 random 서브패키지의 rand 혹은 randn 명령을 사용한다. rand 명령을 uniform 분포를 따르는 난수를 생성하고 randn 명령은 가우시안 정규 분포를 따르는 난수를 생성한다. 생성할 시드(seed)값을 지정하려면 seed 명령을 사용한다.

In [80]:
np.random.seed(0)

In [81]:
np.random.rand(4)

array([ 0.5488135 ,  0.71518937,  0.60276338,  0.54488318])

In [82]:
np.random.randn(3, 5)

array([[ 1.86755799, -0.97727788,  0.95008842, -0.15135721, -0.10321885],
       [ 0.4105985 ,  0.14404357,  1.45427351,  0.76103773,  0.12167502],
       [ 0.44386323,  0.33367433,  1.49407907, -0.20515826,  0.3130677 ]])

In [226]:
np.random.randint(1,100,10)

array([54,  6, 39, 18, 80,  5, 43, 59, 32,  2])

## 배열의 크기 변형

일단 만들어진 배열의 내부 데이터는 보존한 채로 형태만 바꾸려면 reshape 명령이나 메서드를 사용한다. 예를 들어 12개의 원소를 가진 1차원 행렬은 3x4 형태의 2차원 행렬로 만들 수 있다.

In [84]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [86]:
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

사용하는 원소의 갯수가 정해저 있기 때문에 reshape 명령의 형태 튜플의 원소 중 하나는 -1이라는 숫자로 대체할 수 있다. -1을 넣으면 해당 숫자는 다를 값에서 계산되어 사용된다.

In [87]:
a.reshape(2,2,-1)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [88]:
a.reshape(2,-1,2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

다차원 배열을 무조건 1차원으로 펼치기 위해서는 flatten 명령이나 메서드를 사용한다.

In [90]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

배열 사용에서 주의할 점은 길이가 5인 1차원 배열과 행, 열의 갯수가 (5,1)인 2차원 배열 또는 행, 열의 갯수가 (1, 5)인 2차원 배열은 데이터가 같아도 엄연히 다른 객체라는 점이다.

In [91]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [94]:
x.reshape(1, 5)

array([[0, 1, 2, 3, 4]])

In [95]:
x.reshape(5, 1)

array([[0],
       [1],
       [2],
       [3],
       [4]])

이렇게 같은 배열에 대해 차원만 1차원 증가시키는 경우에는 newaxis 명령을 사용하기도 한다.

In [96]:
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

## 배열 연결

행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하여(concatenate) 더 큰 배열을 만들 때는 다음과 같은 명령을 사용한다.

    - hstack
    - vstack
    - dstack
    - stack
    - r_
    - c_
    - tile

hstack 명령은 행의 수가 같은 두 개 이상의 배열을 옆으로 연결하여 열의 수가 더 많은 배열을 만든다. 연결할 배열은 하나의 리스트에 담아야 한다.

In [98]:
a1 = np.ones((2, 3))
a1

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [100]:
a2 = np.zeros((2,2))
a2

array([[ 0.,  0.],
       [ 0.,  0.]])

In [101]:
np.hstack([a2, a2])

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

vstack 명령은 열의 수가 같은 두 개 이상의 배열을 위아래로 연결하여 행의 수가 더 많은 배열을 만든다. 연결할 배열은 마찬가지로 하나의 리스트에 담아야 한다.

In [102]:
b1 = np.ones((2, 3))
b1

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [103]:
b2 = np.zeros((3, 3))
b2

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [105]:
np.vstack([b1, b2])

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

dstack 명령은 제3의 축 즉, 행이나 열이 아닌 깊이(depth) 방향으로 배열을 합친다.

In [106]:
c1 = np.ones((2,3))
c1

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [107]:
c2 = np.zeros((2,3))
c2

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [108]:
np.dstack([c1, c2])

array([[[ 1.,  0.],
        [ 1.,  0.],
        [ 1.,  0.]],

       [[ 1.,  0.],
        [ 1.,  0.],
        [ 1.,  0.]]])

stack 명령은 새로운 차원(축으로) 배열을 연결하며 당연히 연결하고자 하는 배열들의 크기가 모두 같아야 한다. axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정한다.

In [109]:
c = np.stack([c1, c2])
c

array([[[ 1.,  1.,  1.],
        [ 1.,  1.,  1.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.]]])

axis 인수는 새로 추가되는 차원을 지정한다. 다음 코드로 확인할 수 있다. 여기에서 array_equal 명령은 배열의 원소가 아니라 배열 전체를 비교하는 명령이다.

In [110]:
np.array_equal(c[0, :, :], c1), np.array_equal(c[1, :, :], c2)

(True, True)

In [111]:
c = np.stack([c1, c2], axis=1)
c

array([[[ 1.,  1.,  1.],
        [ 0.,  0.,  0.]],

       [[ 1.,  1.,  1.],
        [ 0.,  0.,  0.]]])

In [112]:
np.array_equal(c[:, 0, :], c1), np.array_equal(c[:, 1, :], c2)

(True, True)

r_ 메서드는 hstack 명령과 비슷하게 배열을 좌우로 연결한다. 다만 메서드임에도 불구하고 소괄호(parenthesis, ())를 사용하지 않고 인덱싱과 같이 대괄호(bracket, [])를 사용한다.

In [113]:
np.r_[np.array([1,2,3]), np.array([4,5,6])]

array([1, 2, 3, 4, 5, 6])

c_ 메서드는 배열의 차원을 증가시킨 후 좌우로 연결한다. 만약 1차원 배열을 연결하면 2차원 배열이 된다.

In [114]:
np.c_[np.array([1,2,3]), np.array([4,5,6])]

array([[1, 4],
       [2, 5],
       [3, 6]])

tile 명령은 동일한 배열을 반복하여 연결한다.

In [115]:
a = np.array([0, 1, 2])
np.tile(a, 2)

array([0, 1, 2, 0, 1, 2])

In [116]:
np.tile(a, (3, 2))

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

벡터의 내적 연산은 dot 을 사용한다.

In [206]:
x2 = np.array([1, 2, 3])
y2 = np.array([4, 5, 6])

x2.dot(y2) # dot product  1*4 + 2*5 + 3*6

32

Use .T to get the transpose

In [209]:
x2.T

array([1, 2, 3])

Use `.dtype` to see the data type of the elements in the array.

In [210]:
x2.dtype

dtype('int64')

## 그리드 생성

변수가 2개인 2차원 함수의 그래프를 그리거나 표를 작성하려면 많은 좌표를 한꺼번에 생성하여 각 좌표에 대한 함수 값을 계산해야 한다. 예를 들어 x, y 라는 두 변수를 가진 함수에서 x가 0부터 2까지, y가 0부터 4까지의 사각형 영역에서 변화하는 과정을 보고 싶다면 이 사각형 영역 안의 다음과 같은 (x,y) 쌍 값들에 대해 함수를 계산해야 한다.

(x,y)=(0,0),(0,1),(0,2),(0,3),(0,4),(1,0),⋯(2,4)
 
이러한 과정을 자동으로 해주는 것이 NumPy의 meshgrid 명령이다. meshgrid 명령은 사각형 영역을 구성하는 가로축의 점들과 세로축의 점을 나타내는 두 벡터를 인수로 받아서 이 사각형 영역을 이루는 조합을 출력한다. 단 조합이 된 (x,y)쌍을 x값만을 표시하는 행렬과 y값만을 표시하는 행렬 두 개로 분리하여 출력한다.



In [118]:
x = np.arange(3)
x

array([0, 1, 2])

In [120]:
y = np.arange(5)
y

array([0, 1, 2, 3, 4])

In [121]:
X, Y = np.meshgrid(x, y)

In [122]:
X

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

In [123]:
Y

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4]])

# NumPy 배열의 연산

## 벡터화 연산

NumPy는 코드를 간단하게 만들고 계산 속도를 빠르게 하기 위한 벡터화 연산(vectorized operation)을 지원한다. 벡터화 연산이란 반복문(loop)을 사용하지 않고 선형 대수의 벡터 혹은 행렬 연산과 유사한 코드를 사용하는 것을 말한다.

만약 벡터화 연산을 사용하지 않는다면, 반복문을 사용하여 다음과 같이 만들어야 한다.

In [129]:
x = np.arange(1, 1001)
y = np.arange(1001, 2001)

In [130]:
%%time
z = np.zeros_like(x)
for i in range(1000):
    z[i] = x[i] + y[i]

CPU times: user 943 µs, sys: 692 µs, total: 1.63 ms
Wall time: 2.32 ms


In [131]:
z[:10]

array([1002, 1004, 1006, 1008, 1010, 1012, 1014, 1016, 1018, 1020])

이 코드에서 %%time은 셀 코드의 실행시간을 측정하는 IPython 매직 명령이다.

그러나 벡터화 연산을 사용하면 덧셈 연산 하나로 끝난다. 위에서 보인 선형 대수의 벡터 기호를 사용한 연산과 코드가 완전히 동일하다.

In [132]:
%%time
z = x + y

CPU times: user 21 µs, sys: 8 µs, total: 29 µs
Wall time: 31.9 µs


In [133]:
z[:10]

array([1002, 1004, 1006, 1008, 1010, 1012, 1014, 1016, 1018, 1020])

연산 속도도 벡터화 연산이 훨씬 빠른 것을 볼 수 있다.

비교 연산도 벡터화 연산이 가능하다.

In [134]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [135]:
a == b

array([False,  True, False,  True], dtype=bool)

In [136]:
a >= b

array([False,  True,  True,  True], dtype=bool)

만약 배열 전체를 비교하고 싶다면 all 명령을 사용한다.

In [137]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [138]:
np.all(a == b)

False

In [139]:
np.all(a == c)

True

지수 함수, 로그 함수 등의 수학 함수도 벡터화 연산을 지원한다.

In [140]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [141]:
np.exp(a)

array([  1.        ,   2.71828183,   7.3890561 ,  20.08553692,  54.59815003])

In [142]:
10 ** a

array([    1,    10,   100,  1000, 10000])

In [143]:
np.log(a)

  if __name__ == '__main__':


array([       -inf,  0.        ,  0.69314718,  1.09861229,  1.38629436])

In [144]:
np.log10(a)

  if __name__ == '__main__':


array([       -inf,  0.        ,  0.30103   ,  0.47712125,  0.60205999])

### 연습문제1

벡터 x가 다음과 같을 때, 여러가지 수식을 사용하여 같은 크기의 벡터 y를 만든다.

x = np.arange(10)

## 스칼라와 벡터/행렬의 곱셈

스칼라와 벡터/행렬의 곱도 선형 대수에서 사용하는 식과 NumPy 코드가 일치한다.

In [145]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [146]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [147]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [148]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## Copying Data

Be careful with copying and modifying arrays in NumPy!

r2 is a slice of r

In [211]:
r = np.arange(36)
r.resize((6,6))
r

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [212]:
r2 = r[:3, :3]
r2

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14]])

Set this slice's values to zero ([:] selects the entire array)

In [214]:
r2[:] = 0
r2

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

`r` has also been changed!

In [215]:
r

array([[ 0,  0,  0,  3,  4,  5],
       [ 0,  0,  0,  9, 10, 11],
       [ 0,  0,  0, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

To avoid this, use `r.copy` to create a copy that will not affect the original array

In [216]:
r_copy = r.copy()
r_copy

array([[ 0,  0,  0,  3,  4,  5],
       [ 0,  0,  0,  9, 10, 11],
       [ 0,  0,  0, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

Now when r_copy is modified, r will not be changed.

In [217]:
r_copy[:] = 10
print(r_copy, '\n')
print(r)

[[10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]] 

[[ 0  0  0  3  4  5]
 [ 0  0  0  9 10 11]
 [ 0  0  0 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]
 [30 31 32 33 34 35]]


## 브로드캐스팅

선형 대수에서는 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. 그러나 NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법이다.

In [149]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [150]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [151]:
x + y

array([1, 2, 3, 4, 5])

In [152]:
x + 1

array([1, 2, 3, 4, 5])

브로드캐스팅은 더 차원이 높은 경우에도 적용된다. 다음 그림을 참조하자.

https://datascienceschool.net/upfiles/dbd3775c3b914d4e8c6bbbb342246b6a.png

In [153]:
a = np.tile(np.arange(0, 40, 10), (3, 1)).T
a

array([[ 0,  0,  0],
       [10, 10, 10],
       [20, 20, 20],
       [30, 30, 30]])

In [155]:
b = np.array([0, 1, 2])
b

array([0, 1, 2])

In [156]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

In [157]:
a = np.arange(0, 40, 10)[:, np.newaxis]
a

array([[ 0],
       [10],
       [20],
       [30]])

In [158]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

## 차원 축소 연산

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

NumPy는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원한다.

    - 최대/최소: min, max, argmin, argmax
    - 통계: sum, mean, median, std, var
    - 불리언: all, any

In [159]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [160]:
np.sum(x)

10

In [161]:
x.sum()

10

In [162]:
x = np.array([1, 3, 2])

In [163]:
x.min()

1

In [164]:
x.max()

3

In [168]:
x.argmin() # 최소값의 위치

0

In [167]:
x.argmax() # 최대값의 위치

1

In [170]:
x = np.array([1, 2, 3, 1])

In [171]:
x.mean()

1.75

In [173]:
np.median(x)

1.5

In [174]:
np.all([True, True, False])

False

In [175]:
np.any([True, True, False])

True

In [176]:
a = np.zeros((100, 100), dtype=np.int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [177]:
np.any(a != 0)

False

In [178]:
np.all(a == a)

True

In [179]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [180]:
((a <= b) & (b <= c)).all()

True

연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시한다. axis=0인 경우는 열 연산, axis=1인 경우는 행 연산이다. 디폴트 값은 axis=0이다.

In [181]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [182]:
x.sum()

6

In [183]:
x.sum(axis=0) # 열 합계

array([3, 3])

In [184]:
x.sum(axis=1) # 행 합계

array([2, 4])

### 연습문제2

5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.

    1. 전체의 최대값
    2. 각 행의 합
    3. 각 열의 평균

## 정렬

sort 명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 마찬가지로 axis 인수를 사용하여 방향을 결정한다.

In [185]:
a = np.array([[4, 3, 5], [1, 2, 1]])
a

array([[4, 3, 5],
       [1, 2, 1]])

In [186]:
np.sort(a)

array([[3, 4, 5],
       [1, 1, 2]])

In [187]:
np.sort(a, axis=1)

array([[3, 4, 5],
       [1, 1, 2]])

sort 메서드는 해당 객체의 자료 자체가 변화하는 in-place 메서드이므로 사용할 때 주의를 기울여야 한다.

In [189]:
a.sort(axis=1)
a

array([[3, 4, 5],
       [1, 1, 2]])

만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다.

In [190]:
a = np.array([4, 3, 1, 2])
j = np.argsort(a)
j

array([2, 3, 1, 0])

In [191]:
a[j]

array([1, 2, 3, 4])

### 연습문제3

연습문제2에서 만든 데이터에 대해 다음을 구한다.
    
    1. 첫번째 열 값으로 모든 행을 정렬
    2. 두번째 행 값으로 모든 열을 정렬

## Itertaing Over Arrays

Let's create a new 4 by 3 array of random numbers 0-9.

In [218]:
test = np.random.randint(0, 10, (4, 3))
test

array([[9, 9, 0],
       [4, 7, 3],
       [2, 7, 2],
       [0, 0, 4]])

Iterate by row:

In [219]:
for row in test:
    print(row)

[9 9 0]
[4 7 3]
[2 7 2]
[0 0 4]


Iterate by index:

In [220]:
for i in range(len(test)):
    print(test[i])

[9 9 0]
[4 7 3]
[2 7 2]
[0 0 4]


Iterate by row and index:

In [221]:
for i, row in enumerate(test):
    print('row', i, 'is', row)

row 0 is [9 9 0]
row 1 is [4 7 3]
row 2 is [2 7 2]
row 3 is [0 0 4]


Use zip to iterate over multiple iterables.

In [222]:
test2 = test ** 2
test2

array([[81, 81,  0],
       [16, 49,  9],
       [ 4, 49,  4],
       [ 0,  0, 16]])

In [224]:
for i, j in zip(test, test2):
    print(i, '+', j, '=', i + j)

[9 9 0] + [81 81  0] = [90 90  0]
[4 7 3] + [16 49  9] = [20 56 12]
[2 7 2] + [ 4 49  4] = [ 6 56  6]
[0 0 4] + [ 0  0 16] = [ 0  0 20]
