# 컴퓨터비전 Python & Numpy 튜토리얼

(미국 스탠포드 대학 CS 231n Python & NumPy Tutorial 참고)

Python 3 and NumPy will be used extensively throughout this course, so it's important to be familiar with them.  

A good amount of the material in this notebook comes from Justin Johnson's Python & NumPy Tutorial:
http://cs231n.github.io/python-numpy-tutorial/. At this moment, not everything from that tutorial is in this notebook and not everything from this notebook is in the tutorial.

## Python 3

아래는 Python 3과 Python 2의 차이점에 대한 요약입니다.

If you're unfamiliar with Python 3, here are some of the most common changes from Python 2 to look out for.

### Print is a function

In [None]:
print("Hello!")

Hello!


괄호 없이는 프린트가 안 됩니다

Without parentheses, printing will not work.

In [None]:
print "Hello!"

### 기본적으로 나눗셈 결과는 부동소수점
Floating point division by default

In [None]:
5 / 2

정수형 나눗셈(결과가 정수로 출력되고 나머지는 버리는 C 형식의 나눗셈)은 연산자 // 사용

To do integer division, we use two backslashes:

In [None]:
5 // 2

### No xrange

The xrange from Python 2 is now merged into "range" for Python 3 and there is no xrange in Python 3. In Python 3, range(3) does not create a list of 3 elements as it would in Python 2, rather just creates a more memory efficient iterator.
Python 3에서는 range 결과가 list가 아니라 메모리가 효율적으로 운용되는 iterator에 가까움.

Hence,  
Python 3: xrange 없음, range가 Python 2의 xrange와 유사함
xrange in Python 3: Does not exist  
range in Python 3: Has very similar behavior to Python 2's xrange

In [None]:
for i in range(3):
    print(i)

In [None]:
range(3)

In [None]:
# If need be, can use the following to get a similar behavior to Python 2's range:
# range의 결과가 list가 되도록 만들려면 아래와 같이 list 함수를 사용해야 함
print(list(range(3)))

# NumPy

"NumPy는 Python의 과학적 컴퓨팅을 위한 기본 패키지입니다. 다차원 배열 객체, 다양한 파생 객체 (예 : 마스크 된 배열 및 행렬) 및 논리적, 형태 조작, 정렬, 선택, I / O, 이산 푸리에 변환, 기본 선형 대수, 기본 통계 연산, 랜덤 시뮬레이션 등 배열의 빠른 연산을 위한 다양한 루틴을 제공하는 Python 라이브러리입니다."

"NumPy is the fundamental package for scientific computing in Python. It is a Python library that provides a multidimensional array object, various derived objects (such as masked arrays and matrices), and an assortment of routines for fast operations on arrays, including mathematical, logical, shape manipulation, sorting, selecting, I/O, discrete Fourier transforms, basic linear algebra, basic statistical operations, random simulation and much more"  
-https://docs.scipy.org/doc/numpy-1.10.1/user/whatisnumpy.html.

In [None]:
import numpy as np

NumPy의 성능을 보여주는 예제를 살펴 보겠습니다. 음수가 아닌 첫 번째 100,000 개의 숫자로 구성된 두 개의 목록 a와 b가 있고 * i * th 요소가 a [i] + 2 * b [i] 인 새 목록 c를 작성하려고한다고 가정하십시오.

Let's run through an example showing how powerful NumPy is. Suppose we have two lists a and b, consisting of the first 100,000 non-negative numbers, and we want to create a new list c whose *i*th element is a[i] + 2 * b[i].  

Without NumPy:

In [None]:
%%time
a = list(range(100000))
b = list(range(100000))

CPU times: user 4.31 ms, sys: 4.11 ms, total: 8.42 ms
Wall time: 9.91 ms


In [None]:
%%time
for _ in range(500):
    c = []
    for i in range(len(a)):
        c.append(a[i] + 2 * b[i])

CPU times: user 41.5 s, sys: 212 ms, total: 41.7 s
Wall time: 41.9 s


With NumPy:

In [None]:
%%time
a = np.arange(100000)
b = np.arange(100000)

CPU times: user 4.84 ms, sys: 911 µs, total: 5.75 ms
Wall time: 7.85 ms


In [None]:
%%time
for _ in range(500):
    c = a + 2 * b

CPU times: user 142 ms, sys: 1.66 ms, total: 143 ms
Wall time: 154 ms


결과는 10-15 배 빠르며 (때로는 더 빠름), 더 적은 코드 줄로 수행할 수 있습니다 (코드 자체가 더 직관적이기도 합니다)!

The result is 10 to 15 times (sometimes more) faster, and we could do it in fewer lines of code (and the code itself is more intuitive)!

정규 파이썬은 타입 검사와 코드를 해석하고 파이썬의 추상화를 지원해야하는 기타 오버헤드로 인해 훨씬 느립니다.

예를 들어 루프에서 덧셈을 수행하는 경우 루프에서 반복적으로 변수의 데이터 타입을 체크하면 일반 덧셈 작업을 수행하는 것보다 더 많은 명령문이 발생됩니다. 사전 컴파일된 최적화된 C 코드를 기반으로 사용하는 NumPy는 많은 오버헤드를 피할 수 있습니다.

위에서 사용한 프로세스는 **벡터화**입니다. 벡터화는 개별 원소 대신에 배열 전체에 연산을 적용하는 것을 말합니다 (즉, 루프 없음).


Regular Python is much slower due to type checking and other overhead of needing to interpret code and support Python's abstractions.

For example, if we are doing some addition in a loop, constantly type checking in a loop will lead to many more instructions than just performing a regular addition operation. NumPy, using optimized pre-compiled C code, is able to avoid a lot of the overhead introduced.

The process we used above is **vectorization**. Vectorization refers to applying operations to arrays instead of just individual elements (i.e. no loops).

Vectorization이 필요한 이유?
1. 수행속도가 훨씬 빨라짐
2. 코드가 간결해지고 읽기 편해짐
3. 수학적 표현에 더 가까워짐

NumPy가 유용한 주 이유가 vectorization임

Why vectorize?
1. Much faster
2. Easier to read and fewer lines of code
3. More closely assembles mathematical notation

Vectorization is one of the main reasons why NumPy is so powerful.

## ndarray

단일 데이터 타입의 n 차원 배열 인 ndarray는 NumPy에 사용되는 기본 데이터 유형입니다. 단일 데이터 타입이기 때문에 생성시 크기가 고정되므로 Python의 list보다 유연성이 떨어지지만 수행속도 및 메모리 측면에서 훨씬 더 효율적일 수 있습니다. (Python의 list는 객체에 대한 포인터들의 배열로 간접성이 더 늘어나는 형태가 됩니다.)

차원의 수는 배열의 rank(계수)입니다. 배열의 shape은 각 차원 별 배열의 크기를 나타내는 정수들의 tuple입니다.


ndarrays, n-dimensional arrays of homogenous data type, are the fundamental datatype used in NumPy. As these arrays are of the same type and are fixed size at creation, they offer less flexibility than Python lists, but can be substantially more efficient runtime and memory-wise. (Python lists are arrays of pointers to objects, adding a layer of indirection.)

The number of dimensions is the rank of the array; the shape of an array is a tuple of integers giving the size of the array along each dimension.

In [None]:
# Can initialize ndarrays with Python lists, for example:
a = np.array([[[1, 2, 3],[1, 2, 3]],[[1, 2, 3],[1, 2, 3]]])   # Create a rank 1 array
print('type:', type(a))            # Prints "<class 'numpy.ndarray'>"
print('shape:', a.shape)            # Prints "(3,)"
print('a:', a)   # Prints "1 2 3"

a_cpy= a.copy()
a[0] = 5                  # Change an element of the array
print('a modeified:', a)                  # Prints "[5, 2, 3]"
print('a copy:', a_cpy)

b = np.array([[1, 2, 3],
              [4, 5, 6]])    # Create a rank 2 array
print('shape:', b.shape)                     # Prints "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # Prints "1 2 4"

NumPy에서는 ndarray를 초기화하는 다양한 함수를 제공합니다.

There are many other initializations that NumPy provides:

In [None]:
a = np.zeros((2, 2))   # Create an array of all zeros
print(a)               # Prints "[[ 0.  0.]
                       #          [ 0.  0.]]"

b = np.full((2, 2), 7)  # Create a constant array
print(b)                # Prints "[[ 7.  7.]
                        #          [ 7.  7.]]"

c = np.eye(2)         # Create a 2 x 2 identity matrix
print(c)              # Prints "[[ 1.  0.]
                      #          [ 0.  1.]]"

d = np.random.random((2, 2))  # Create an array filled with random values
print(d)                      # Might print "[[ 0.91940167  0.08143941]
                              #               [ 0.68744134  0.87236687]]"

모든 원소가 1인 2x2 행렬을 만드는 방법은?

How do we create a 2 by 2 matrix of ones?

In [None]:
a = np.ones((2, 2))    # Create an array of all ones
print(a)               # Prints "[[ 1.  1.]
                       #          [ 1.  1.]]"

디버깅 하고 기타 연산을 할 때 ndarray의 shape을 잘 기억하는 것이 좋습니다.

Useful to keep track of shape; helpful for debugging and knowing dimensions will be very useful when computing gradients, among other reasons.

In [None]:
nums = np.arange(8)
print(nums)
print(nums.shape)

nums = nums.reshape((2, 4))
print('Reshaped:\n', nums)
print(nums.shape)

# The -1 in reshape corresponds to an unknown dimension that numpy will figure out,
# based on all other dimensions and the array size.
# Can only specify one unknown dimension.
# For example, sometimes we might have an unknown number of data points, and
# so we can use -1 instead without worrying about the true number.
nums = nums.reshape((4, -1))
print('Reshaped with -1:\n', nums, '\nshape:\n', nums.shape)

# You can also flatten the array by using -1 reshape
print('Flatten:\n', nums.reshape(-1), '\nshape:\n', nums.reshape(-1).shape)

NumPy는 객체-지향 프로그래밍 체계를 지원하여, ndarray 객체들의 해당 클래스의 멤버 변수 및 함수들이 제공됩니다. 예를 들어 아래의 함수들을 활용할 수 있습니다.

NumPy supports an object-oriented paradigm, such that ndarray has a number of methods and attributes, with functions similar to ones in the outermost NumPy namespace. For example, we can do both:

In [None]:
nums = np.arange(8)
print(nums.min())     # Prints 0
print(np.min(nums))   # Prints 0
print(np.reshape(nums, (4, 2)))

## Array Operations/Math

NumPy는 원소별 연산 기능도 제공합니다.

NumPy supports many elementwise operations:

In [None]:
import numpy as np
x = np.array([[1, 2],
              [3, 4]], dtype=np.float64)
y = np.array([[5, 6],
              [7, 8]], dtype=np.float64)

# Elementwise sum; both produce the array
# [[ 6.0  8.0]
#  [10.0 12.0]]
print(np.array_equal(x + y, np.add(x, y)))

# Elementwise difference; both produce the array
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(np.array_equal(x - y, np.subtract(x, y)))

# Elementwise product; both produce the array
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(np.array_equal(x * y, np.multiply(x, y)))

# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

True
True
True
[[1.         1.41421356]
 [1.73205081 2.        ]]


두 배열의 원소 별 나눗셈을 하는 방법은?

How do we elementwise divide between two arrays?

In [None]:
x = np.array([[1, 2], [3, 4]], dtype=np.float64)
y = np.array([[5, 6], [7, 8]], dtype=np.float64)

# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


* 은 원소별 곱이고 행렬 곱이 아님을 주의하세요. 벡터의 내적, 행렬과 벡터의 곱, 그리고 행렬의 곱을 계산할 때에는 모두 dot 함수를 사용합니다. dot은 일반적인 함수로도 제공되고 array 객체의 멤버 함수로도 제공됩니다.

Note * is elementwise multiplication, not matrix multiplication. We instead use the dot function to compute inner products of vectors, to multiply a vector by a matrix, and to multiply matrices. dot is available both as a function in the numpy module and as an instance method of array objects:



In [None]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])

v = np.array([9, 10])
w = np.array([11, 12])

# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))

# Matrix / vector product; both produce the rank 1 array [29 67]
print(x.dot(v))
print(np.dot(x, v))

# Matrix / matrix product; both produce the rank 2 array
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

219
219
[29 67]
[29 67]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


NumPy에는 많은 유용한 기능이 내장되어 있으며, 우리는 이런 함수를 ndarray의 특정 축에 따라 다르게 적용할 수도 있습니다.

There are many useful functions built into NumPy, and often we're able to express them across specific axes of the ndarray:

In [None]:
x = np.array([[1, 2, 3], 
              [4, 5, 6]])
print(x)

print(np.sum(x))          # Compute sum of all elements; prints "21"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[5 7 9]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[6 15]"

print(np.max(x, axis=1))  # Compute max of each row; prints "[3 6]" 

[[1 2 3]
 [4 5 6]]
21
[5 7 9]
[ 6 15]
[3 6]


각 행의 최대값의 인덱스를 어떻게 구할까요? 입력 영상의 종류로 가장 높은 점수가 계산된 클래스를 찾는 경우 등에 유용함.

How can we compute the index of the max value of each row? Useful, to say, find the class that corresponds to the maximum score for an input image.

In [None]:
x = np.array([[1, 2, 3], 
              [4, 5, 6]])

print(np.argmax(x, axis=1)) # Compute index of max of each row; prints "[2 2]"

특정 조건을 만족시키는 원소를 찾고자 할 때에는 `np.where` 사용

We can find indices of elements that satisfy some conditions by using `np.where`

In [None]:
print(np.where(nums > 5))
print(nums[np.where(nums > 5)])

작업을 적용하는 축은 shape에서 제거됩니다. 어떤 축이 무엇에 대응되는지 파악하고자 할 때 유념해야 합니다.

예를 들면 다음과 같습니다.

Note the axis you apply the operation will have its dimension removed from the shape.
This is useful to keep in mind when you're trying to figure out what axis corresponds
to what.

For example:

In [None]:
x = np.array([[1, 2, 3], 
              [4, 5, 6]])

print('x ndim:', x.ndim)
print((x.max(axis=0)).ndim) # Taking the max over axis 0 has shape (3,)
                             # corresponding to the 3 columns.

# An array with rank 3
x = np.array([[[1, 2, 3], 
               [4, 5, 6]],
              [[10, 23, 33], 
               [43, 52, 16]]
             ])

print('x ndim:', x.ndim)               # Has shape (2, 2, 3)
print((x.max(axis=1)).ndim) # Taking the max over axis 1 has shape (2, 3)
print((x.max(axis=(1, 2))).ndim)       # Can take max over multiple axes; prints [6 52]

## Indexing

NumPy는 인덱스를 활용하는 다양한 방법도 제공합니다.

NumPy also provides powerful indexing schemes.

In [None]:
# Create the following rank 2 array with shape (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])
print('Original:\n', a)

# Can select an element as you would in a 2 dimensional Python list
print('Element (0, 0) (a[0][0]):\n', a[0][0])   # Prints 1
# or as follows
print('Element (0, 0) (a[0, 0]) :\n', a[0, 0])  # Prints 1

# Use slicing to pull out the subarray consisting of the first 2 rows
# and columns 1 and 2; b is the following array of shape (2, 2):
# [[2 3]
#  [6 7]]
print('Sliced (a[:2, 1:3]):\n', a[:2, 1:3])

# Steps are also supported in indexing. The following reverses the first row:
print('Reversing the first row (a[0, ::-1]) :\n', a[0, ::-1]) # Prints [4 3 2 1]

# slice by the first dimension, works for n-dimensional array where n >= 1
print('slice the first row by the [...] operator: \n', a[0, ...])

종종 행렬의 각 행에서 하나의 원소를 선택하거나 수정하는 것이 유용할 때가 있습니다. 다음 예제에서는 **fancy indexing**을 사용합니다. 여기서 인덱스의 배열(예 : 정수 또는 부울 배열)을 통해 차원별 배열 인덱스를 입력하여 원소에 접근하는 것입니다.

Often, it's useful to select or modify one element from each row of a matrix. The following example employs **fancy indexing**, where we index into our array using an array of indices (say an array of integers or booleans):

In [None]:
# Create a new array from which we will select elements
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9],
              [10, 11, 12]])

print(a)  # prints "array([[ 1,  2,  3],
          #                [ 4,  5,  6],
          #                [ 7,  8,  9],
          #                [10, 11, 12]])"

# Create an array of indices
b = np.array([0, 2, 0, 1])

# Select one element from each row of a using the indices in b
print(a[np.arange(4), b])  # Prints "[ 1  6  7 11]"

# same as
for x, y in zip(np.arange(4), b):
    print(a[x, y])

c = a[0]
c[0] = 100
print(a)

# Mutate one element from each row of a using the indices in b
a[np.arange(4), b] += 10

print(a)  # prints "array([[11,  2,  3],
          #                [ 4,  5, 16],
          #                [17,  8,  9],
          #                [10, 21, 12]])


불리언 인덱싱/마스킹도 가능합니다. MAX보다 큰 모든 요소를 MAX로 설정하려는 경우를 가정합시다.

We can also use boolean indexing/masks. Suppose we want to set all elements greater than MAX to MAX:

In [None]:
MAX = 5
nums = np.array([1, 4, 10, -1, 15, 0, 5])
print(nums > MAX)            # Prints [False, False, True, False, True, False, False]

nums[nums > MAX] = 100
print(nums)                  # Prints [1, 4, 5, -1, 5, 0, 5]

In [None]:
nums = np.array([1, 4, 10, -1, 15, 0, 5])
nums > 5

fancy indexing의 인덱스는 아무 순서로 여러차례 입력되어도 됩니다.

Note that the indices in fancy indexing can appear in any order and even multiple times:

In [None]:
nums = np.array([1, 4, 10, -1, 15, 0, 5])
print(nums[[1, 2, 3, 1, 0]])  # Prints [4 10 -1 4 1]

## Broadcasting

위에서 살펴본 많은 작업은 동일한 차원 크기의 배열과 관련이 있습니다.
그러나 많은 경우 더 작은 배열과 큰 배열 사이에 연산을 반복적으로 수행해면서 큰 배열의 값들을 업데이트해야 할 수 있습니다. (ex: convolution)
예를 들어, 아래의 경우와 같이 각 열의 평균값을 해당 열의 원소에서 빼는 예를 고려하십시오.

Many of the operations we've looked at above involved arrays of the same rank.  
However, many times we might have a smaller array and use that multiple times to update an array of a larger dimensions.  
For example, consider the below example of shifting the mean of each column from the elements of the corresponding column:

In [None]:
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x.shape)  # Prints (2, 3)

col_means = x.mean(axis=0)
print(col_means)          # Prints [2. 3.5 5.]
print(col_means.shape)    # Prints (3,)
                          # Has a smaller rank than x!

mean_shifted = x - col_means
print('\n', mean_shifted)
print(mean_shifted.shape)  # Prints (2, 3)

아니면 어떤 행렬을 그냥 2배 시키는 아래 연산이든지요:

Or even just multiplying a matrix by 2:

In [None]:
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x * 2) # Prints [[ 2  4  6]
             #         [ 6 10 14]]


두 개의 어레이를 함께 브로드 캐스트하면 다음 규칙을 따릅니다.

1. 배열의 순위가 동일하지 않으면 두 모양의 길이가 같아 질 때까지 하위 배열의 모양에 1을 붙입니다.
2. 두 배열의 크기가 차원이 같거나 배열 중 하나의 크기가 1 인 경우 차원에서 호환된다고합니다.
3. 모든 차원에서 호환되는 어레이는 함께 브로드 캐스트 할 수 있습니다.
4. 브로드 캐스팅 후 각 배열은 마치 두 입력 배열의 요소 별 최대 모양과 같은 모양을 갖습니다.
5. 한 배열의 크기가 1이고 다른 배열의 크기가 1보다 큰 차원에서 첫 번째 배열은 마치 해당 차원을 따라 복사 된 것처럼 동작합니다.


Broadcasting two arrays together follows these rules:

1. If the arrays do not have the same rank, prepend the shape of the lower rank array with 1s until both shapes have the same length.
2. The two arrays are said to be compatible in a dimension if they have the same size in the dimension, or if one of the arrays has size 1 in that dimension.
3. The arrays can be broadcast together if they are compatible in all dimensions.
4. After broadcasting, each array behaves as if it had shape equal to the elementwise maximum of shapes of the two input arrays.
5. In any dimension where one array had size 1 and the other array had size greater than 1, the first array behaves as if it were copied along that dimension.

예를 들어, 같이 각 열에서 어떤 값을 빼는 위의 예시에서는 모양이 각각 (2, 3) 및 (3,)인 배열들이 있습니다.

1. 이 배열들은 같은 차원 크기를 가지지 않기 때문에, 우리는 배열 차원이 더 작은 배열의 shape의 앞에 1을 붙여서 (1, 3)이 되게 만듭니다.
2. (2, 3) 및 (1, 3)은 호환 가능합니다 (차원의 크기가 같거나 배열 중 하나의 크기가 특정 차원에서 1 인 경우).
3. 이 경우에는 함께 브로드캐스팅할 수 있습니다!
4. 브로드캐스팅 후 각 어레이는 마치 (2, 3)의 shape을 가진 것처럼 동작합니다.
5. 작은 배열은 차원 0을 따라 복사된 것처럼 연산이 적용됩니다.

For example, when subtracting the columns above, we had arrays of shape (2, 3) and (3,).

1. These arrays do not have same rank, so we prepend the shape of the lower rank one to make it (1, 3).
2. (2, 3) and (1, 3) are compatible (have the same size in the dimension, or if one of the arrays has size 1 in that dimension).
3. Can be broadcast together!
4. After broadcasting, each array behaves as if it had shape equal to (2, 3).
5. The smaller array will behave as if it were copied along dimension 0.

각 행의 평균을 빼도록 하자!

Let's try to subtract the mean of each row!

In [None]:
x = np.array([[1, 2, 3],
              [3, 5, 7]])

row_means = x.mean(axis=1)
print(row_means)  # Prints [2. 5.]

mean_shifted = x - row_means

무엇이 문제인지 알아내기 위해 행렬의 모양을 출력합니다.

To figure out what's wrong, we print some shapes:

In [None]:
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x.shape)  # Prints (2, 3)

row_means = x.mean(axis=1)
print(row_means)        # Prints [2. 5.]
print(row_means.shape)  # Prints (2,)

무슨일이 일어났습니까?

What happened?

답변 : 만약 우리가 브로드캐스팅 룰 1을 따른다면 우리는 1을 배열의 차원이 더 작은 배열에 붙일것입니다(1, 2). 그러나 (2, 3)과 (1, 2)사이의 마지막 차원이 맞지 않기때문에 우리는 브로드캐스트를 할 수 없습니다.

Answer: If we following broadcasting rule 1, then we'd prepend a 1 to the smaller rank array ot get (1, 2). However, the last dimensions don't match now between (2, 3) and (1, 2), and so we can't broadcast.

둘째, 바람직한 동작을 얻기위해 행 평균을 다시 구성 하세요,

Take 2, reshaping the row means to get the desired behavior:

In [None]:
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x.shape)  # Prints (2, 3)

row_means = x.mean(axis=1)
print('row_means shape:', row_means.shape)
print('expanded row_means shape: ', np.expand_dims(row_means, axis=1).shape)

mean_shifted = x - np.expand_dims(row_means, axis=1)
print(mean_shifted)
print(mean_shifted.shape)  # Prints (2, 3)

더 많은 브로드캐스팅 예제입니다!

More broadcasting examples!

In [None]:
# Compute outer product of vectors
v = np.array([1, 2, 3])  # v has shape (3,)
w = np.array([4, 5])    # w has shape (2,)
# To compute an outer product, we first reshape v to be a column
# vector of shape (3, 1); we can then broadcast it against w to yield
# an output of shape (3, 2), which is the outer product of v and w:
# [[ 4  5]
#  [ 8 10]
#  [12 15]]
print(np.reshape(v, (3, 1)) * w)

# Add a vector to each row of a matrix
x = np.array([[1, 2, 3], [4, 5, 6]])
# x has shape (2, 3) and v has shape (3,) so they broadcast to (2, 3),
# giving the following matrix:
# [[2 4 6]
#  [5 7 9]]
print(x + v)

# Add a vector to each column of a matrix
# x has shape (2, 3) and w has shape (2,).
# If we transpose x then it has shape (3, 2) and can be broadcast
# against w to yield a result of shape (3, 2); transposing this result
# yields the final result of shape (2, 3) which is the matrix x with
# the vector w added to each column. Gives the following matrix:
# [[ 5  6  7]
#  [ 9 10 11]]
print((x.T + w).T)
# Another solution is to reshape w to be a column vector of shape (2, 1);
# we can then broadcast it directly against x to produce the same
# output.
print(x + np.reshape(w, (2, 1)))

## Views vs. Copies

복사와는 다르게 배열의 **뷰**에서 데이터는 뷰와 배열 간에 공유됩니다. 때때로, 우리의 결과는 배열의 복사가 됩니다., 그러나 다른때에 그것들은 뷰가 될수 있습니다. 예측하지 못한 문제를 피하기 위해 각 항목이 생성되는 시점을 이해하는 것은 중요합니다.

Unlike a copy, in a **view** of an array, the data is shared between the view and the array. Sometimes, our results are copies of arrays, but other times they can be views. Understanding when each is generated is important to avoid any unforeseen issues.

뷰는 배열의 슬라이스로 부터 생성될 수 있으며 동일한 데이터 영역의 dtype을 변경하거나(arr.astype(dtype)의 결과가 아닌 arr.view(dtype)를 사용)또는 둘다에 의해서 생성될 수 있습니다.

Views can be created from a slice of an array, changing the dtype of the same data area (using arr.view(dtype), not the result of arr.astype(dtype)), or even both.

In [None]:
x = np.arange(5)
print('Original:\n', x)  # Prints [0 1 2 3 4]

# Modifying the view will modify the array
view = x[1:3]
view[1] = -1
print('Array After Modified View:\n', x)  # Prints [0 1 -1 3 4]

In [None]:
x = np.arange(5)
view = x[1:3]
view[1] = -1

# Modifying the array will modify the view
print('View Before Array Modification:\n', view)  # Prints [1 -1]
x[2] = 10
print('Array After Modifications:\n', x)          # Prints [0 1 10 3 4]
print('View After Array Modification:\n', view)   # Prints [1 10]

그러나 만약 팬시 인덱싱을 사용한다면 그 결과는 뷰가 아니라 복사가 될 것이다. 

However, if we use fancy indexing, the result will actually be a copy and not a view:

In [None]:
x = np.arange(5)
print('Original:\n', x)  # Prints [0 1 2 3 4]

# Modifying the result of the selection due to fancy indexing
# will not modify the original array.
copy = x[[1, 2]]
copy[1] = -1
print('Copy:\n', copy) # Prints [1 -1]
print('Array After Modified Copy:\n', x)  # Prints [0 1 2 3 4]

In [None]:
# Another example involving fancy indexing
x = np.arange(5)
print('Original:\n', x)  # Prints [0 1 2 3 4]

copy = x[x >= 2]
print('Copy:\n', copy) # Prints [2 3 4]
x[3] = 10
print('Modified Array:\n', x)  # Prints [0 1 2 10 4]
print('Copy After Modified Array:\n', copy)  # Prints [2 3 4]

## Summary

1. Numpy는 엄청난 효율성과 편리성 모두를 제공하는 강력한 연산 라이브러리 입니다.
2. 벡터화! 훨씬 빠른 속도
3. 배열의 모양을 추적하는데 유용합니다.
4. 넘파이에는 많은 수학 함수와 연산자들이 내장되어 있습니다.
5. 임의의 데이터 조각들을 강력한 인덱싱 구성으로 다룹니다.
6. 브로드캐스팅은 다른 모양의 배열들을 계산할 수 있도록 해줍니다.
7. 뷰와 카피를 조십하세요.


1. NumPy is an incredibly powerful library for computation providing both massive efficiency gains and convenience.
2. Vectorize! Orders of magnitude faster.
3. Keeping track of the shape of your arrays is often useful.
4. Many useful math functions and operations built into NumPy.
5. Select and manipulate arbitrary pieces of data with powerful indexing schemes.
6. Broadcasting allows for computation across arrays of different shapes.
7. Watch out for views vs. copies.