# Numpy
[From [cs231n's python tutorial](http://cs231n.github.io/python-numpy-tutorial/)]

Numpy는 Python 과학분야 컴퓨팅을 위한 핵심 라이브러리입니다. 고성능 다차원 배열 객체와 이러한 배열 작업을 위한 도구를 제공합니다. 이미 MATLAB에 익숙하다면, 이 튜토리얼이 Numpy를 시작하는데 유용할 것입니다.

## Arrays
* numpy 배열은 모두 같은 유형의 값들의 그리드이며, 
* 음수가 아닌 정수의 튜플(tuple)에 의해 인덱싱됩니다. 
* 차원의 수는 배열의 순위입니다. 
* 배열의 모양은 각 차원을 따라 배열의 크기를 제공하는 정수의 튜플입니다.

* 우리는 중첩된 파이썬 리스트로부터 numpy 배열을 초기화 할 수 있고, 대괄호를 사용하여 요소에 접근 할 수 있다 :

In [3]:
import numpy as np

a = np.array([1, 2, 3])
print(type(a))
print(a.shape)
print(a[0], a[1], a[2])
a[0] = 5
print(a)

b = np.array([[1,2,3],[4,5,6]])
print(b.shape)
print(b[0, 0], b[0, 1], b[0, 2])

<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]
(2, 3)
1 2 3


Numpy는 또한 배열을 생성하는 많은 함수를 제공합니다 :

In [2]:
import numpy as np

a = np.zeros((2,2))
print(a)

b = np.ones((1,2))
print(b)

c = np.full((2,2),7)
print(c)

d = np.eye(2)
print(d)

e = np.random.random((2,2))
print(e)

[[0. 0.]
 [0. 0.]]
[[1. 1.]]
[[7 7]
 [7 7]]
[[1. 0.]
 [0. 1.]]
[[0.65745724 0.74741323]
 [0.55821581 0.51632993]]


In [12]:
a = np.arange(5)
print(a)
b = np.arange(2, 3, 0.3)
print(b)
c = np.linspace(1., 4., 5) # 5 equally space elements
print(c)

[0 1 2 3 4]
[2.  2.3 2.6 2.9]
[1.   1.75 2.5  3.25 4.  ]


[여기에서](https://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation) 다른 배열 생성 방법을 읽을 수 있습니다.

## Array Indexing
Numpy는 배열에 색인을 생성하는 몇 가지 방법을 제공합니다.

**슬라이싱**: 파이썬 리스트와 마찬가지로, numpy 배열은 슬라이스 할 수 있습니다. 배열은 다차원 일 수 있으므로, 배열의 각 차원에 대해 슬라이스를 지정해야 합니다.

In [16]:
import numpy as np

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

# 배열의 조각(slice)은 동일한 데이터에 대한 뷰이므로 
# 수정하면 원래 배열이 수정됩니다.
b = a[:2, 1:3] 
print(b)
print(a[0, 1])
b[0, 0] = 77
print(b)
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[2 3]
 [6 7]]
2
[[77  3]
 [ 6  7]]
[[ 1 77  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


**정수 인덱싱**과 슬라이스 인덱싱을 혼용 할 수도 있습니다. 그러나 이렇게 하면 **원래 배열보다 낮은 순위의 배열**이 생성됩니다. 이것은 MATLAB이 배열 슬라이스를 처리하는 방식과 매우 다릅니다.

In [10]:
import numpy as np

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
row_r1 = a[1, :]
row_r2 = a[1:2, :]
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)

col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


**정수 배열 인덱싱**: 슬라이싱을 사용하여 numpy 배열로 인덱싱 할 때, 결과 배열 뷰는 항상 원래 배열의 하위 배열이 됩니다. 반대로 정수 배열 인덱싱을 사용하면, 다른 배열의 데이터를 사용하여 임의의 배열을 구성 할 수 있습니다. 다음은 그 예입니다.

In [15]:
import numpy as np

a = np.array([[1,2], [3,4], [5,6]])
print(a)
print(a[[0,1,2], [0,1,0]])
print(np.array([a[0,0], a[1,1], a[2,0]]))
print(a[[0,0], [1,1]])
print(np.array([a[0,1], a[0,1]]))

[[1 2]
 [3 4]
 [5 6]]
[1 4 5]
[1 4 5]
[2 2]
[2 2]


정수 배열 인덱싱을 사용하는 유용한 트릭은 행렬의 각 행에서 하나의 요소를 선택하거나 변경하는 것입니다.

In [19]:
import numpy as np

a = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
print(a)
b = np.array([0, 2, 0, 1])
print(a[np.arange(4), b])
a[np.arange(4), b] += 10
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 1  6  7 11]
[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


부울 배열 인덱싱 : 부울 배열 인덱싱을 사용하면 배열의 임의 요소를 선택할 수 있습니다. 이 유형의 인덱싱은 일부 조건을 충족하는 배열 요소를 선택하는 데 자주 사용됩니다. 다음은 그 예입니다.

In [22]:
import numpy as np

a = np.array([[1,2], [3,4], [5,6]])

print(a)
bool_idx = (a > 2)
print(bool_idx)
print(a[bool_idx])
print(a[a>2])

[[1 2]
 [3 4]
 [5 6]]
[[False False]
 [ True  True]
 [ True  True]]
[3 4 5 6]
[3 4 5 6]


간단히하기 위해 numpy 배열 인덱싱에 대한 많은 세부 사항을 생략했습니다. 더 많은 것을 알고 싶다면 [여기 문서](https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html)를 읽어야합니다.

## Datatypes
각 numpy 배열은 동일한 유형의 요소 그리드입니다. Numpy는 배열을 생성하는 데 사용할 수 있는 많은 수의 데이터 유형을 제공합니다. Numpy는 배열을 만들 때 데이터 유형을 추측하려 하지만, 배열을 생성하는 함수는 대개 데이터 유형을 명시적으로 지정하는 선택적 인수도 포함합니다. 다음은 그 예입니다.

In [26]:
import numpy as np

x = np.array([1, 2])
print(x.dtype)

x = np.array([1.0, 2.0])
print(x.dtype)

x = np.array([1, 2], dtype=np.int32)
print(x.dtype)

int64
float64
int32


## Array math
기본 수학 함수는 배열에서 요소 단위로 작동하며, 연산자 오버로드와 numpy 모듈의 함수로 사용할 수 있습니다.

In [30]:
import numpy as np

x = np.array([[1,2], [3,4]], dtype=np.float64)
y = np.array([[5,6], [7,8]], dtype=np.float64)

print(x + y)
print(np.add(x, y))
print(x - y)
print(np.subtract(x, y))
print(x * y)
print(np.multiply(x, y))
print(x / y)
print(np.divide(x, y))
print(np.sqrt(x))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


MATLAB과 달리 *는 행렬 곱셈이 아닌 요소 별 곱셈입니다. 대신 
- 벡터의 inner product를 계산하고, 
- 벡터에 행렬을 곱하고, 
- 행렬들의 곱하기를 위해 

dot 함수를 사용합니다. dot는 numpy 모듈의 함수와 배열 객체의 인스턴스 메서드로 사용할 수 있습니다.

In [31]:
import numpy as np

x = np.array([[1,2], [3,4]])
y = np.array([[5,6], [7,8]])
v = np.array([9, 10])
w = np.array([11, 12])

print(v.dot(w))
print(np.dot(v,w))

print(x.dot(v))
print(np.dot(x, v))

print(x.dot(y))
print(np.dot(x, y))

219
219
[29 67]
[29 67]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy는 배열에 대하여 계산을 수행하는 데 유용한 많은 함수을 제공합니다. 가장 유용한 것 중 하나가 sum입니다.

In [32]:
import numpy as np

x = np.array([[1,2], [3,4]])
print(np.sum(x))
print(np.sum(x, axis=0))
print(np.sum(x, axis=1))

10
[4 6]
[3 7]


numpy가 제공하는 수학 함수의 전체 목록은 [여기](https://docs.scipy.org/doc/numpy/reference/routines.math.html)에서 찾을 수 있습니다.

배열을 사용하여 수학 함수를 계산하는 것 외에도 배열의 데이터를 변형하거나 조작해야하는 경우가 자주 있습니다. 이 유형의 연산 중 가장 간단한 예제는 행렬을 transpose 하는 것입니다. 행렬을 transpose 하려면 단순히 배열 객체의 T 속성을 사용하십시오.

In [33]:
import numpy as np

x = np.array([[1,2], [3,4]])
print(x)
print(x.T)

v = np.array([1,2,3])
print(v)
print(v.T)

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
[1 2 3]
[1 2 3]


Numpy는 배열 조작을 위한 많은 함수를 제공합니다. [여기](https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html)에서 전체 목록을 볼 수 있습니다.

##  Matrix casting (obsolete)

연산자 * 가  행렬 연산으로 작동되게 해 줌

In [52]:
v = np.ones(3)
a = np.arange(1,10).reshape((3,3))
print(v * a)

A = np.matrix(a)
print(v * A)

[[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]]
[[12. 15. 18.]]


## Broadcasting

브로드 캐스팅은 산술 연산을 수행 할 때 numpy가 다른 모양의 배열로 작업 할 수 있게 해주는 강력한 메커니즘입니다. 종종 우리는 더 작은 배열과 더 큰 배열을 가지며, 더 큰 배열에서 어떤 연산을 수행하기 위해 더 작은 배열을 여러 번 사용하려고 합니다.

예를 들어, 행렬의 각 행에 상수 벡터를 추가한다고 가정합니다. 우리는 다음과 같이 할 수 있습니다.

In [34]:
import numpy as np

x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
v = np.array([1,0,1])
y = np.empty_like(x)

for i in range(4):
    y[i, :] = x[i, :] + v
    
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


이것은 동작합니다; 그러나 행렬 x가 매우 클 경우 Python에서 명시적 루프를 계산하는 속도가 느려질 수 있습니다. 행렬 x의 각 행에 벡터 v를 더하는 것은 v의 여러 복사본을 수직으로 쌓은 다음, 행렬 x와 v의 요소적 합계를 수행하여 행렬 vv를 만드는 것과 같습니다. 이 접근법은 다음과 같이 구현할 수 있습니다.

In [35]:
import numpy as np

x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
v = np.array([1, 0, 1])
vv = np.tile(v, (4,1))
print(vv)
y = x + vv
print(y)

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy 방송은 실제로 v의 여러 복사본을 만들지 않고, 이 계산을 수행 할 수있게 해줍니다. 방송을 사용하는 이 버전을 살펴보십시오.

In [36]:
import numpy as np

x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
v = np.array([1, 0, 1])
y = x + v
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


y = x + v 라인은 x가 shape (4, 3)이고 v가 shape (3)인데도 방송으로 인해 작동합니다. 이 라인은 v가 실제로 shape (4, 3)를 가지는 것처럼 작동하며, 각 행은 v의 사본이고, 합계는 요소단위로 수행됩니다.

두 개의 배열을 함께 브로드캐스팅하면 다음 규칙이 적용됩니다.

- 배열의 rank가 같지 않으면, 두 모양이 같은 길이가 될 때까지 낮은 rank의 배열 모양 앞에 1로 하여 rank를 증가시킵니다.
- 두 배열은 차원에서 크기가 같거나, 배열 중 하나의 차원에 크기가 1 인 경우에 차원에서 호환 가능하다고 합니다.
- 배열은 모든 차원에서 호환되는 경우 함께 브로드캐스트 될 수 있습니다.
- 방송 후 각 배열은 두 개의 입력 배열의 요소 모양 최대 개수와 동일한 모양을 가진 것처럼 동작합니다.
- 한 배열의 크기가 1이고 다른 배열의 크기가 1보다 큰 차원에서 첫 번째 배열은 마치 해당 차원을 따라 복사 된 것처럼 작동합니다

이 설명이 이해가 되지 않는 경우 [이 설명서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) 나 [이 설명]( )을 읽으십시오.

브로드케스팅을 지원하는 기능을 보편적 기능이라고 합니다. [설명서](https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs)에서 모든 범용 기능 목록을 찾을 수 있습니다.

다음은 방송의 일부 응용 프로그램입니다.

In [41]:
import numpy as np

v = np.array([1,2,3])
w = np.array([4,5])
print(np.reshape(v, (3,1)) * w)

x = np.array([[1,2,3], [4,5,6]])
print(x + v)

print((x.T + w).T)

print(x + np.reshape(w, (2,1)))

print(x * 2)

[[ 4  5]
 [ 8 10]
 [12 15]]
[[2 4 6]
 [5 7 9]]
[[ 5  6  7]
 [ 9 10 11]]
[[ 5  6  7]
 [ 9 10 11]]
[[ 2  4  6]
 [ 8 10 12]]


broadcast는 일반적으로 코드를 보다 간결하고 빠르게 만들므로, 가능하면 이를 사용하려고 노력해야 합니다.

## Statistics

In [75]:
A = np.arange(25).reshape(5,5)
print(A)
print(np.mean(A), np.mean(A[:,0]))
print(A.mean(), A[:,0].mean())

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
12.0 10.0
12.0 10.0


In [67]:
print(np.std(A[:,0]), np.var(A[:,4]))

7.0710678118654755 50.0


In [82]:
print(A.min(), A.min(axis=1), A[:,2].min())
print(A.max(), A.max(axis=1), A[3,:].max())

0 [ 0  5 10 15 20] 2
24 [ 4  9 14 19 24] 19


In [83]:
print(A.sum(), A[:,1].prod())

300 22176
