# 7주차: 라이브러리 소개

### * 오늘의 커리큘럼 *

#### 수업1: NumPy
- NumPy 소개
- 예제

#### 수업2: Matplotlib
- Matplotlib 소개
- 예제

### =================================

### 수업1: Numpy

Numpy는 파이썬의 과학 컴퓨팅을 위한 핵심 라이브러리입니다. 고성능 다차원 배열 객체와 이러한 배열로 작업할 수 있는 도구를 제공합니다. MATLAB에 이미 익숙하다면 이 [튜토리얼](http://wiki.scipy.org/NumPy_for_Matlab_Users)이 Numpy를 시작하는 데 유용할 수 있습니다.

Numpy를 사용하려면 먼저 `numpy` 패키지를 임포트해야 합니다:

In [1]:
import numpy as np

### Arrays

배열은 모두 같은 유형의 값 그리드이며 음수가 아닌 정수의 튜플로 인덱싱됩니다. 차원 수는 배열의 순위를 나타내며, 배열의 모양은 각 차원에 따른 배열의 크기를 나타내는 정수 튜플입니다.

중첩된 파이썬 목록에서 널 배열을 초기화하고 대괄호를 사용하여 요소에 액세스할 수 있습니다:

In [2]:
a = np.array([1, 2, 3])  # Create a rank 1 array
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # Change an element of the array
print(a)                  

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [7]:
b = np.array([[1,2,3],[4,5,6]])   # Create a rank 2 array
print(b)
print(b[0][1]) # 32 * 3 * 256 * 256

[[1 2 3]
 [4 5 6]]
2


In [8]:
print(b.shape)                   
print(b[0, 0], b[0, 1], b[1, 0])

(2, 3)
1 2 4


Numpy는 배열을 생성하는 다양한 함수도 제공합니다:

In [9]:
a = np.zeros((2,2))  # Create an array of all zeros
print(a)

[[0. 0.]
 [0. 0.]]


In [16]:
b = np.ones((2,2)).astype(np.int32) *7# Create an array of all ones
print(b)

[[7 7]
 [7 7]]


In [11]:
c = np.full((2,2), 7) # Create a constant array
print(c)

[[7 7]
 [7 7]]


In [2]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [31]:
d = np.eye(10)[np.array([3,4,9])]        # Create a 2x2 identity matrix
print(d)

[[0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


In [3]:
e = np.random.random((2,2)) # Create an array filled with random values
print(e)

[[0.8112865  0.0090009 ]
 [0.87414347 0.88316391]]


### Array indexing

Numpy는 배열로 인덱싱하는 여러 가지 방법을 제공합니다. 

슬라이싱: 파이썬 리스트와 유사하게, numpy 배열도 슬라이스할 수 있습니다. 배열은 다차원일 수 있으므로 배열의 각 차원에 대해 슬라이스를 지정해야 합니다:

In [33]:
import numpy as np

# Create the following rank 2 array with shape (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# Use slicing to pull out the sub-array consisting of the first 2 rows
# and columns 1 and 2; b is the following array of shape (2, 2):
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


배열의 슬라이스는 동일한 데이터에 대한 보기이므로 이를 수정하면 원래 배열이 수정됩니다.

In [34]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] is the same piece of data as a[0, 1]
print(a[0, 1])

2
77


In [35]:
print(a[0, 1])  
b = a[:2, 1:3].copy()
b[0, 0] = 90 
print(a[0, 1]) 

77
77


정수 인덱싱과 슬라이스 인덱싱을 혼합할 수도 있습니다. 그러나 이렇게 하면 원래 배열보다 낮은 순위의 배열이 생성됩니다. 이는 MATLAB에서 배열 슬라이싱을 처리하는 방식과는 상당히 다르다는 점에 유의하세요:

In [36]:
# Create the following rank 2 array with shape (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


배열의 중간 행에 있는 데이터에 액세스하는 두 가지 방법이 있습니다.
정수 인덱싱과 슬라이스를 혼합하면 더 낮은 순위의 배열이 생성됩니다,
슬라이스만 사용하면 원래 배열과 동일한 순위의 배열이 생성됩니다.
배열이 생성됩니다:

In [37]:
row_r1 = a[1, :]    # Rank 1 view of the second row of a  
row_r2 = a[1:2, :]  # Rank 2 view of the second row of a
row_r3 = a[[1], :]  # Rank 2 view of the second row of a
print(row_r1, row_r1.shape) 
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[[5 6 7 8]] (1, 4)


In [38]:
# We can make the same distinction when accessing columns of an array:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print()
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)

[[ 2]
 [ 6]
 [10]] (3, 1)


정수 배열 인덱싱: 슬라이싱을 사용하여 정수 배열로 인덱싱하면 결과 배열 보기는 항상 원래 배열의 하위 배열이 됩니다. 이와 대조적으로 정수 배열 인덱싱을 사용하면 다른 배열의 데이터를 사용하여 임의의 배열을 구성할 수 있습니다. 다음은 예시입니다:

In [39]:
a = np.array([[1,2], [3, 4], [5, 6]])
# An example of integer array indexing.
# The returned array will have shape (3,) and 
print(a[[0, 1, 2], 
        [0, 1, 0]])
# The above example of integer array indexing is equivalent to this:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[1 4 5]
[1 4 5]


In [40]:
# When using integer array indexing, you can reuse the same
# element from the source array:
print(a[[0, 0], [1, 1]])

# Equivalent to the previous integer array indexing example
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


정수 배열 인덱싱의 유용한 트릭 중 하나는 행렬의 각 행에서 하나의 요소를 선택하거나 변경하는 것입니다:

In [41]:
# Create a new array from which we will select elements
a = np.array([[1,2,3], 
              [4,5,6], 
              [7,8,9], 
              [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [42]:
# Create an array of indices
b = np.array([0, 2, 0, 1])

# Select one element from each row of a using the indices in b
print(a[np.arange(4), b])  # Prints "[ 1  6  7 11]"

[ 1  6  7 11]


In [43]:
# Mutate one element from each row of a using the indices in b
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


bool 배열 인덱싱: 부울 배열 인덱싱을 사용하면 배열의 임의의 요소를 선택할 수 있습니다. 이러한 유형의 인덱싱은 특정 조건을 만족하는 배열의 요소를 선택하는 데 자주 사용됩니다. 다음은 그 예입니다:

In [44]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # Find the elements of a that are bigger than 2;
                    # this returns a numpy array of Booleans of the same
                    # shape as a, where each slot of bool_idx tells
                    # whether that element of a is > 2.

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [45]:
# We use boolean array indexing to construct a rank 1 array
# consisting of the elements of a corresponding to the True values
# of bool_idx
print(a[bool_idx])

# We can do all of the above in a single concise statement:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


배열 인덱싱에 대한 자세한 내용은 생략했으며, 자세한 내용을 알고 싶으시면 문서를 읽어보시기 바랍니다.

### Datatypes

모든 배열은 같은 유형의 요소로 구성된 그리드입니다. Numpy는 배열을 구성하는 데 사용할 수 있는 대규모 숫자 데이터 타입 집합을 제공합니다. Numpy는 배열을 만들 때 데이터형을 추측하려고 시도하지만, 배열을 만드는 함수에는 일반적으로 데이터형을 명시적으로 지정하는 선택적 인수가 포함됩니다. 다음은 그 예입니다:

In [46]:
x = np.array([1, 2])  # Let numpy choose the datatype
y = np.array([1.0, 2.0])  # Let numpy choose the datatype
z = np.array([1, 2], dtype=np.int64)  # Force a particular datatype

print(x.dtype, y.dtype, z.dtype)

int64 float64 int64


널파이 데이터 유형에 대한 자세한 내용은 [문서](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html)에서 확인할 수 있습니다.

### Array math

기본 수학 함수는 배열에서 요소 단위로 작동하며 연산자 오버로드와 널파이 모듈의 함수로 모두 사용할 수 있습니다:

In [47]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Elementwise sum; both produce the array
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [48]:
# Elementwise difference; both produce the array
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [57]:
# Elementwise product; both produce the array
import time
a = time.time()
print(x * y)
b = time.time()
print(b-a)
c = time.time()
print(np.multiply(x, y))
d = time.time()
print(d-c)

[[ 5. 12.]
 [21. 32.]]
0.0002677440643310547
[[ 5. 12.]
 [21. 32.]]
0.000179290771484375


In [58]:
# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [62]:
# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))
print(np.power(x, 0.5))
x**2

[[1.         1.41421356]
 [1.73205081 2.        ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


MATLAB과 달리 `*`는 행렬 곱셈이 아닌 요소 곱셈이라는 점에 유의하세요. 대신 점 함수를 사용하여 벡터의 내적 곱을 계산하고, 벡터에 행렬을 곱하고, 행렬을 곱합니다. 점 함수는 numpy 모듈의 함수와 배열 객체의 인스턴스 메서드로 모두 사용할 수 있습니다:

In [81]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])
a = w.T
b = np.dot(v, a)
v @ a
# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))
np.sum(v * w.T) # (1,2) * (2,1)

219
219


219

In [71]:
# Matrix / vector product; both produce the rank 1 array [29 67]
print(x.dot(v))
print(np.dot(x, v))
# 1 * 9 + 2 * 10 , 3 * 9 + 4 * 10

[29 67]
[29 67]


In [85]:
# Matrix / matrix product; both produce the rank 2 array
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))
np.matmul(x,y)

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


array([[19, 22],
       [43, 50]])

Numpy는 배열에서 연산을 수행하는 데 유용한 함수를 많이 제공하는데, 가장 유용한 함수 중 하나는 `sum`입니다:

In [86]:
x = np.array([[1,2],
              [3,4]])

print(np.sum(x))  # Compute sum of all elements; prints "10"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

10
[4 6]
[3 7]


[문서](http://docs.scipy.org/doc/numpy/reference/routines.math.html)에서 numpy가 제공하는 수학 함수의 전체 목록을 확인할 수 있습니다.

배열을 사용해 수학 함수를 계산하는 것 외에도 배열의 데이터를 재구성하거나 다른 방식으로 조작해야 하는 경우가 종종 있습니다. 이러한 유형의 연산의 가장 간단한 예는 행렬을 바꾸는 것입니다. 행렬을 바꾸려면 배열 객체의 T 속성을 사용하기만 하면 됩니다:

In [87]:
print(x)
print(x.T)

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]


In [100]:
v = np.array([1,2,3,4,5,6]).reshape(3, -1)
v = np.array([1,2,3,4,5,6]).reshape(2,-1)
print(v.shape)
print(v) 
print(v.T)

(2, 3)
[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]


### Broadcasting

브로드캐스팅은 산술 연산을 수행할 때 서로 다른 모양의 배열로 작업할 수 있는 강력한 메커니즘입니다. 작은 배열과 큰 배열이 있는 경우, 작은 배열을 여러 번 사용해 큰 배열에서 어떤 연산을 수행하고자 하는 경우가 종종 있습니다.

예를 들어 행렬의 각 행에 상수 벡터를 추가하고 싶다고 가정해 보겠습니다. 다음과 같이 할 수 있습니다:

In [101]:
# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x.shape)

v = np.array([1, 0, 1])
print(v.shape)

y = np.empty_like(x)   # Create an empty matrix with the same shape as x
print(y.shape)

# Add the vector v to each row of the matrix x with an explicit loop
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

(4, 3)
(3,)
(4, 3)
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


이 방법은 작동하지만 행렬 `x`가 매우 큰 경우 파이썬에서 명시적 루프를 계산하는 속도가 느려질 수 있습니다. 행렬 `x`의 각 행에 벡터 v를 추가하는 것은 `v`의 여러 복사본을 수직으로 쌓아 행렬 `vv`를 형성한 다음 `x`와 `vv`의 요소별 합계를 수행하는 것과 같습니다. 이 접근 방식을 다음과 같이 구현할 수 있습니다:

In [102]:
vv = np.tile(v, (4, 1))  # Stack 4 copies of v on top of each other
print(vv)                # Prints "[[1 0 1]
print(vv.shape)          #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]
(4, 3)


In [103]:
y = x + vv  # Add x and vv elementwise
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy 브로드캐스팅을 사용하면 실제로 v의 복사본을 여러 개 만들지 않고도 이 계산을 수행할 수 있습니다.

In [104]:
import numpy as np

# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Add v to each row of x using broadcasting
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


방송으로 인해 `x`가 `(4, 3)`, `v`가 `(3,)` 모양을 가지더라도 `y = x + v`라는 선이 작동하는데, 이 선은 각 행이 `v`의 복사본이고 합이 요소 단위로 수행된 `v`가 실제로 `(4, 3)` 모양을 가진 것처럼 작동합니다.

두 배열을 함께 브로드캐스트하는 것은 다음 규칙을 따릅니다:

1. 배열의 순위가 같지 않으면 두 도형의 길이가 같아질 때까지 낮은 순위 배열의 도형에 1을 앞에 붙입니다.
2. 두 배열이 차원 내에서 크기가 같거나 배열 중 하나가 해당 차원에서 크기가 1이면 두 배열이 차원 내에서 호환 가능하다고 합니다.
3. 배열이 모든 차원에서 호환되는 경우 함께 브로드캐스트할 수 있습니다.
4. 브로드캐스트 후 각 배열은 두 입력 배열의 요소별 최대 모양과 동일한 모양을 가진 것처럼 동작합니다.
5. 한 배열의 크기가 1이고 다른 배열의 크기가 1보다 큰 모든 차원에서는 첫 번째 배열이 해당 차원을 따라 복사된 것처럼 동작합니다.

이 설명이 이해가 되지 않는다면 [문서](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) 또는 이 [설명](http://wiki.scipy.org/EricsBroadcastingDoc)에서 설명을 읽어보시기 바랍니다.

방송을 지원하는 함수를 유니버설 함수라고 합니다. 유니버설 함수의 전체 목록은 [문서](http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs)에서 확인할 수 있습니다.

다음은 방송의 몇 가지 응용 프로그램입니다:

In [110]:
# Compute outer product of vectors
v = np.array([1,2,3])  # v has shape (3,)
w = np.array([4,5])    # w has shape (2,)
# To compute an outer product, we first reshape v to be a column
# vector of shape (3, 1); we can then broadcast it against w to yield
# an output of shape (3, 2), which is the outer product of v and w:

# (3, 1) * (b, 2,)
# (1, 3) * (a, 2,)
print(np.reshape(v, (3, 1)) * w)
# or...
print(v[:,None]*w[None]) (3, 1) * (1, 2) ==> (3, 2)
# see shapes
print(v[:,None].shape)
print(w[None].shape)

[[ 4  5]
 [ 8 10]
 [12 15]]
[[ 4  5]
 [ 8 10]
 [12 15]]
(3, 1)
(1, 2)


In [111]:
print(x)
print(x.shape)
print(v)
print(v.shape)
# Add a vector to each row of a matrix
x = np.array([[1,2,3], [4,5,6]])
# x has shape (2, 3) and v has shape (3,) so they broadcast to (2, 3),
# giving the following matrix:

print(x + v)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
(4, 3)
[1 2 3]
(3,)
[[2 4 6]
 [5 7 9]]


In [None]:
print(x)
print(x.shape)
print(w)
print(w.shape)

# Add a vector to each column of a matrix
# x has shape (2, 3) and w has shape (2,).
# If we transpose x then it has shape (3, 2) and can be broadcast
# against w to yield a result of shape (3, 2); transposing this result
# yields the final result of shape (2, 3) which is the matrix x with
# the vector w added to each column. Gives the following matrix:
print((x.T + w).T)

In [None]:
# Another solution is to reshape w to be a row vector of shape (2, 1);
# we can then broadcast it directly against x to produce the same
# output.
print(x + np.reshape(w, (2, 1)))

In [None]:
# Multiply a matrix by a constant:
# x has shape (2, 3). Numpy treats scalars as arrays of shape ();
# these can be broadcast together to shape (2, 3), producing the
# following array:
print(x * 2)

일반적으로 브로드캐스팅은 코드를 더 간결하고 빠르게 만들 수 있으므로 가능한 경우 브로드캐스팅을 사용하도록 노력해야 합니다.이 간략한 개요에서는 numpy에 대해 알아야 할 중요한 사항 중 많은 부분을 다루었지만 완전하지는 않습니다. numpy에 대해 더 자세히 알아보려면 [numpy 참조](http://docs.scipy.org/doc/numpy/reference/)를 확인하세요.

### 수업2: Matplotlib

Matplotlib은 플로팅 라이브러리입니다. 이 섹션에서는 MATLAB과 유사한 플로팅 시스템을 제공하는 `matplotlib.pyplot` 모듈에 대해 간략하게 소개합니다.

In [112]:
import matplotlib.pyplot as plt

이 특별한 iPython 명령을 실행하면 플롯을 인라인으로 표시합니다:

In [None]:
%matplotlib inline

### Plotting

matplotlib`에서 가장 중요한 함수는 2D 데이터를 플롯할 수 있는 플롯(plot)입니다. 다음은 간단한 예제입니다:

In [None]:
# Compute the x and y coordinates for points on a sine curve
x = np.arange(0, 3 * np.pi, 0.1)
y = np.sin(x)

# Plot the points using matplotlib
plt.plot(x, y)

약간의 추가 작업만으로 한 번에 여러 개의 선을 쉽게 그릴 수 있고 제목, 범례, 축 레이블을 추가할 수 있습니다:

In [None]:
y_sin = np.sin(x)
y_cos = np.cos(x)

# Plot the points using matplotlib
plt.plot(x, y_sin)
plt.plot(x, y_cos)
plt.xlabel('x axis label')
plt.ylabel('y axis label')
plt.title('Sine and Cosine')
plt.legend(['Sine', 'Cosine'])

### Subplots 

서브플롯 함수를 사용하여 같은 그림에 다른 것을 그릴 수 있습니다. 다음은 예시입니다:

In [None]:
# Compute the x and y coordinates for points on sine and cosine curves
x = np.arange(0, 3 * np.pi, 0.1)
y_sin = np.sin(x)
y_cos = np.cos(x)

# Set up a subplot grid that has height 2 and width 1,
# and set the first such subplot as active.
plt.subplot(2, 1, 1)

# Make the first plot
plt.plot(x, y_sin)
plt.title('Sine')

# Set the second subplot as active, and make the second plot.
plt.subplot(2, 1, 2)
plt.plot(x, y_cos)
plt.title('Cosine')

# Show the figure.
plt.show()

서브플롯 함수에 대한 자세한 내용은 [문서](http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.subplot)에서 확인할 수 있습니다.