# 5. Numpy

    Numpy는 파이썬이 계산과학분야에 이용될때 핵심 역할을 하는 라이브러리입니다.
    Numpy는 고성능의 다차원 배열 객체와 이를 다룰 도구를 제공합니다.

1. Arrays(배열)
2. Array indexing(배열 인덱싱)
3. Datatypes(자료형)
4. Array math(배열 연산)
5. Broadcasting(브로드 캐스팅)

reference : http://cs231n.github.io/python-numpy-tutorial/#numpy       

https://docs.scipy.org/doc/

## 1. Arrays(배열)

Numpy array는 matrix 형태의 배열을 만들 수 있게 해준다.

In [1]:
import numpy as np

a = np.array([1, 2, 3])   # rank가 1인 배열 생성 , rank는 matrix의 차원을 의미한다.
print(type(a))            # 출력 "<type 'numpy.ndarray'>"

<class 'numpy.ndarray'>


In [2]:
print(a.shape)            # 출력 "(3,)"

(3,)


In [3]:
print(a[0], a[1], a[2])   # 출력 "1 2 3"

1 2 3


In [4]:
a[0] = 5                  # 요소를 변경
print(a)                  # 출력 "[5, 2, 3]"

[5 2 3]


In [5]:
b = np.array([[1,2,3],[4,5,6]])   # rank가 2인 배열 생성
print(b.shape)                    # 출력 "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # 출력 "1 2 4"

(2, 3)
1 2 4



## Numpy는 배열을 만들기 위한 다양한 함수

In [None]:
a = np.zeros((2,2))   # 모든 값이 0인 배열 생성
print(a)              # 출력 "[[ 0.  0.]
                      #       [ 0.  0.]]"

In [None]:
b = np.ones((1,2))   # 모든 값이 1인 배열 생성
print(b)             # 출력 "[[ 1.  1.]]"

In [None]:
c = np.full((2,2), 7)  # 모든 값이 특정 상수인 배열 생성
print(c)               # 출력 "[[ 7.  7.]
                       #       [ 7.  7.]]"

In [None]:
d = np.eye(2)         # 2x2 단위행렬 생성
print(d)              # 출력 "[[ 1.  0.]
                      #       [ 0.  1.]]"

In [None]:
e = np.random.random((2,2))  # 임의의 값으로 채워진 배열 생성
print(e)                     # 임의의 값 출력 "[[ 0.91940167  0.08143941]
                             #                  [ 0.68744134  0.87236687]]"

## 2. Array indexing(배열 인덱싱)

Numpy는 배열을 인덱싱하는 몇 가지 방법을 제공합니다.

In [None]:
'''
Slicing(슬라이싱) : 파이썬 리스트와 유사하게, Numpy 배열도 슬라이싱이 가능합니다. Numpy 배열은 다차원인 경우가 많기에, 
                    각 차원별로 어떻게 슬라이스할건지 명확히 해야 합니다.
'''

import numpy as np

# Create the following rank 2 array with shape (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

In [None]:
# 슬라이싱을 이용하여 첫 두 행과 1열, 2열로 이루어진 부분배열을 만들어 봅시다;
# b는 shape가 (2,2)인 배열이 됩니다:
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

In [None]:
# 슬라이싱된 배열은 원본 배열과 같은 데이터를 참조합니다, 즉 슬라이싱된 배열을 수정하면
# 원본 배열 역시 수정됩니다.
print(a[0, 1])   # 출력 "2"
b[0, 0] = 77    # b[0, 0]은 a[0, 1]과 같은 데이터입니다
print(a[0, 1])   # 출력 "77"

In [None]:
''' 
정수를 이용한 인덱싱과 슬라이싱을 혼합하여 사용할 수 있습니다.
하지만 이렇게 할 경우, 기존의 배열보다 낮은 rank의 배열이 얻어집니다. 
'''

import numpy as np

# 아래와 같은 요소를 가지는 rank가 2이고 shape가 (3, 4)인 배열 생성
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

In [None]:
# 배열의 중간 행에 접근하는 두 가지 방법이 있습니다.
# 정수 인덱싱과 슬라이싱을 혼합해서 사용하면 낮은 rank의 배열이 생성되지만,
# 슬라이싱만 사용하면 원본 배열과 동일한 rank의 배열이 생성됩니다.
row_r1 = a[1, :]    # 배열a의 두 번째 행을 rank가 1인 배열로
row_r2 = a[1:2, :]  # 배열a의 두 번째 행을 rank가 2인 배열로
print(row_r1, row_r1.shape) # 출력 "[5 6 7 8] (4,)"
print(row_r2, row_r2.shape) # 출력 "[[5 6 7 8]] (1, 4)"

In [None]:
# 행이 아닌 열의 경우에도 마찬가지입니다:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)  # 출력 "[ 2  6 10] (3,)"
print(col_r2, col_r2.shape)  # 출력 "[[ 2]
                            #       [ 6]
                            #       [10]] (3, 1)"

In [None]:
'''
bolean array indexing(불리언 배열 인덱싱) : 불리언 배열 인덱싱을 통해 배열 속 요소를 취사선택할 수 있습니다. 
                                           불리언 배열 인덱싱은 특정 조건을 만족하게 하는 요소만 선택하고자 할 때 자주 사용됩니다.
''' 

import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # 2보다 큰 a의 요소를 찾습니다;
                    # 이 코드는 a와 shape가 같고 불리언 자료형을 요소로 하는 numpy 배열을 반환합니다,
                    # bool_idx의 각 요소는 동일한 위치에 있는 a의 요소가 2보다 큰지를 말해줍니다.

print(bool_idx)     # 출력 "[[False False]
                    #       [ True  True]
                    #       [ True  True]]"

In [None]:
# 불리언 배열 인덱싱을 통해 bool_idx에서
# 참 값을 가지는 요소로 구성되는
# rank 1인 배열을 구성할 수 있습니다.
print(a[bool_idx])  # 출력 "[3 4 5 6]"


# 위에서 한 모든것을 한 문장으로 할 수 있습니다:
print(a[a > 2])     # 출력 "[3 4 5 6]"

## 3. Datatypes(자료형)

    Numpy 배열은 동일한 자료형을 가지는 값들이 격자판 형태로 있는 것입니다. 
    Numpy에선 배열을 구성하는 데 사용할 수 있는 다양한 숫자 자료형을 제공합니다. 
    Numpy는 배열이 생성될 때 자료형을 스스로 추측합니다, 그러나 배열을 생성할 때 명시적으로 특정 자료형을 지정할 수도 있습니다.

In [None]:
import numpy as np

x = np.array([1, 2])  # Numpy가 자료형을 추측해서 선택
print(x.dtype)        # 출력 "int64"

x = np.array([1.0, 2.0])  # Numpy가 자료형을 추측해서 선택
print(x.dtype)            # 출력 "float64"

x = np.array([1, 2], dtype=np.int64)  # 특정 자료형을 명시적으로 지정
print(x.dtype)                        # 출력 "int64"

## 4. Array math(배열 연산)

배열을 이용하여 여러 수학연산을 할 수 있습니다.

In [None]:
import numpy as np

x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print("x :\n", x)
print("y :\n", y)

In [None]:
# 요소별 합(Elementwise sum); 둘 다 다음의 배열을 만듭니다
# [[ 6.0  8.0]
#  [10.0 12.0]]
print (x + y)
print (np.add(x, y))

In [None]:
# 요소별 차(Elementwise difference); 둘 다 다음의 배열을 만듭니다
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print (x - y)
print (np.subtract(x, y))

In [None]:
# 요소별 곱(Elementwise product); 둘 다 다음의 배열을 만듭니다
# [[ 5.0 12.0]
#  [21.0 32.0]]
print (x * y)
print (np.multiply(x, y))

In [None]:
# 요소별 나눗셈(Elementwise division); 둘 다 다음의 배열을 만듭니다
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print (x / y)
print (np.divide(x, y))

In [None]:
# 요소별 제곱근(Elementwise square root); 다음의 배열을 만듭니다
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print (np.sqrt(x))

In [None]:
'''
우리가 생각하는 백터의 내적, 벡터와 행렬의 곱, 행렬곱을 하기위해서는 'dot' 함수를 사용해야 합니다.
'''

import numpy as np

x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# 벡터의 내적; 둘 다 결과는 219
print (v.dot(w))
print (np.dot(v, w))

In [None]:
# 행렬과 벡터의 곱; 둘 다 결과는 rank 1인 배열 [29 67]
print (x.dot(v))
print (np.dot(x, v))

In [None]:
# 행렬곱; 둘 다 결과는 rank 2인 배열
# [[19 22]
#  [43 50]]
print (x.dot(y))
print (np.dot(x, y))

In [None]:
'''
Numpy에서 제공하는 수학함수
reference : https://docs.scipy.org/doc/numpy/reference/routines.math.html
'''

# sum

import numpy as np

x = np.array([[1,2],[3,4]])
print(x)

In [None]:
print (np.sum(x))  # 모든 요소를 합한 값을 연산; 출력 "10"

In [None]:
print (np.sum(x, axis=0))  # 각 열에 대한 합을 연산; 출력 "[4 6]"

In [None]:
print (np.sum(x, axis=1))  # 각 행에 대한 합을 연산; 출력 "[3 7]"

In [None]:
# transpose(전치)

import numpy as np

x = np.array([[1,2], [3,4]])
print (x)    # 출력 "[[1 2]
           #          [3 4]]"
print (x.T)  # 출력 "[[1 3]
           #          [2 4]]"

In [None]:
# rank 1인 배열을 전치할 경우 아무 일도 일어나지 않습니다:
v = np.array([1,2,3])
print (v)    # 출력 "[1 2 3]"
print(v.shape)

In [None]:
print (v.T)  # 출력 "[1 2 3]"
print(v.T.shape)

## 5. Broadcasting(브로드캐스팅)

    브로트캐스팅은 Numpy에서 shape가 다른 배열 간에도 산술 연산이 가능하게 하는 메커니즘입니다.
    종종 작은 배열과 큰 배열이 있을 때, 큰 배열을 대상으로 작은 배열을 여러 번 연산하고자 할 때가 있습니다. 
    예를 들어, 행렬의 각 행에 상수 벡터를 더하는 걸 생각해보세요. 이는 다음과 같은 방식으로 처리될 수 있습니다

In [None]:
import numpy as np

# 행렬 x의 각 행에 벡터 v를 더한 뒤,
# 그 결과를 행렬 y에 저장하고자 합니다
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x)

In [None]:
v = np.array([1, 0, 1])
print(v)

In [None]:
y = np.empty_like(x)   # x와 동일한 shape를 가지며 행렬 생성(copy 기능과 동일)

# 명시적 반복문을 통해 행렬 x의 각 행에 벡터 v를 더하는 방법
for i in range(4):
    y[i, :] = x[i, :] + v

# 이제 y는 다음과 같습니다
# [[ 2  2  4]
#  [ 5  5  7]
#  [ 8  8 10]
#  [11 11 13]]
print (y)

In [None]:
'''
위의 방식대로 하면 됩니다. 
그러나 ‘x’가 매우 큰 행렬이라면, 파이썬의 명시적 반복문을 이용한 위 코드는 매우 느려질 수 있습니다. 
벡터 ‘v’를 행렬 ‘x’의 각 행에 더하는 것은 ‘v’를 여러 개 복사해 수직으로 쌓은 행렬 ‘vv’를 만들고,
이 ‘vv’를 ‘x’에 더하는것과 동일합니다. 이 과정을 아래의 코드로 구현할 수 있습니다.
'''

import numpy as np

# 벡터 v를 행렬 x의 각 행에 더한 뒤,
# 그 결과를 행렬 y에 저장하고자 합니다
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
vv = np.tile(v, (4, 1))  # v의 복사본 4개를 위로 차곡차곡 쌓은 것이 vv
print (vv)               # 출력 "[[1 0 1]
                         #       [1 0 1]
                         #       [1 0 1]
                         #       [1 0 1]]"

In [None]:
y = x + vv  # x와 vv의 요소별 합
print (y)  # 출력 "[[ 2  2  4
           #       [ 5  5  7]
           #       [ 8  8 10]
           #       [11 11 13]]"

In [None]:
'''
Numpy의 내장된 브로드캐스팅을 이용한다면 이렇게 v의 복사본을 여러 개 만들지 않아도 동일한 연산을 할 수 있습니다. 
아래는 브로드캐스팅을 이용한 예시 코드입니다.
'''

import numpy as np

# 벡터 v를 행렬 x의 각 행에 더한 뒤,
# 그 결과를 행렬 y에 저장하고자 합니다
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # 브로드캐스팅을 이용하여 v를 x의 각 행에 더하기
print (y)  # 출력 "[[ 2  2  4]
           #       [ 5  5  7]
           #       [ 8  8 10]
           #       [11 11 13]]"

In [None]:
'''
브로드캐스팅 예제
'''

import numpy as np

# 벡터의 외적을 계산
v = np.array([1,2,3])  # v의 shape는 (3,)
w = np.array([4,5])    # w의 shape는 (2,)
# 외적을 계산하기 위해, 먼저 v를 shape가 (3,1)인 행벡터로 바꿔야 합니다;
# 그다음 이것을 w에 맞춰 브로드캐스팅한뒤 결과물로 shape가 (3,2)인 행렬을 얻습니다,
# 이 행렬은 v와 w 외적의 결과입니다:
# [[ 4  5]
#  [ 8 10]
#  [12 15]]
print (np.reshape(v, (3, 1)) * w)

In [None]:
# 벡터를 행렬의 각 행에 더하기
x = np.array([[1,2,3], [4,5,6]])
# x는 shape가 (2, 3)이고 v는 shape가 (3,)이므로 이 둘을 브로드캐스팅하면 shape가 (2, 3)인
# 아래와 같은 행렬이 나옵니다:
# [[2 4 6]
#  [5 7 9]]
print (x + v)

In [None]:
# 벡터를 행렬의 각 행에 더하기
# x는 shape가 (2, 3)이고 w는 shape가 (2,)입니다.
# x의 전치행렬은 shape가 (3,2)이며 이는 w와 브로드캐스팅이 가능하고 결과로 shape가 (3,2)인 행렬이 생깁니다;
# 이 행렬을 전치하면 shape가 (2,3)인 행렬이 나오며
# 이는 행렬 x의 각 열에 벡터 w을 더한 결과와 동일합니다.
# 아래의 행렬입니다:
# [[ 5  6  7]
#  [ 9 10 11]]
print ((x.T + w).T)

In [None]:
# 다른 방법은 w를 shape가 (2,1)인 열벡터로 변환하는 것입니다;
# 그런 다음 이를 바로 x에 브로드캐스팅해 더하면
# 동일한 결과가 나옵니다.
print (x + np.reshape(w, (2, 1)))

In [None]:
# 행렬의 스칼라배:
# x 의 shape는 (2, 3)입니다. Numpy는 스칼라를 shape가 ()인 배열로 취급합니다;
# 그렇기에 스칼라 값은 (2,3) shape로 브로드캐스트 될 수 있고,
# 아래와 같은 결과를 만들어 냅니다:
# [[ 2  4  6]
#  [ 8 10 12]]
print (x * 2)

더 많은 자료는 numpy 래퍼런스를 참조하세요.
https://docs.scipy.org/doc/numpy/reference/