# numpy 기본 문법

numpy는 파이썬의 수치 계산용 라이브러리입니다. pandas, sklearn 등의 라이브러리가 넘파이에 강하게 의존하고 있습니다. 이 절에서는 numpy의 핵심 기능을 익히고, 몇 가지 연습을 해보겠습니다.

## 배열 생성하기

In [2]:
import numpy as np

# 리스트를 입력
np.array([[1, 1], 
          [0, 2]])

array([[1, 1],
       [0, 2]])

In [2]:
# 원소가 0인 배열
np.zeros((2, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [3]:
# 원소가 1인 배열
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [4]:
# 표준정규분포에서 샘플링한 배열
np.random.randn(2, 3)

array([[ 1.32412054, -1.69970733,  0.78053091],
       [-0.77850834,  0.31959289, -3.00926407]])

In [5]:
# 1과 2 사이를 균등한 비율로 나눈, 원소가 4개인 배열 생성
np.linspace(1, 2, 4)

array([1.        , 1.33333333, 1.66666667, 2.        ])

## 배열의 형상 조작하기

In [6]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

# 배열의 형상은 3 x 2입니다.
X.shape

(3, 2)

In [7]:
# 행렬을 전치해줍니다.
X.T

array([[1, 0, 4],
       [1, 2, 4]])

In [8]:
# 배열을 일자로 쭉 펼칩니다. 
X.ravel()

array([1, 1, 0, 2, 4, 4])

## 인덱싱

In [9]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

# 0번째 행, 1번째 열의 원소 가져오기
X[0, 1]

1

In [10]:
# 2번째 열 가져오기
X[:, 1]

array([1, 2, 4])

In [11]:
# 1, 3번째 행 가져오기
X[[0, 2]]

array([[1, 1],
       [4, 4]])

## 점곱(dot )

In [12]:
x = np.array([1, 2, 3])
y = np.array([10, 100, 1000])

np.dot(x, y)

3210

In [13]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

y = np.array([10, 100])

np.dot(X, y)

array([110, 200, 440])

In [14]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

Y = np.array([[10, 100, 1000], 
              [1, 10, 100]])

np.dot(X, Y)

array([[  11,  110, 1100],
       [   2,   20,  200],
       [  44,  440, 4400]])

## 원소별 연산

In [15]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

# 형상이 같은 두 배열에 대해 연산을 해주면,
# 같은 위치에 있는 원소끼리 연산을 해줍니다.
X + X

array([[2, 2],
       [0, 4],
       [8, 8]])

## 범용 함수(universal function)

In [16]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

# 모든 X의 원소에 대해 sin 함수가 적용된다. 
# 이와 같이 동작하는 함수를 범용 함수라고 합니다.
np.sin(X)

array([[ 0.84147098,  0.84147098],
       [ 0.        ,  0.90929743],
       [-0.7568025 , -0.7568025 ]])

## 브로드 캐스팅

In [3]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

# 더하기 빼기 등의 연산을 하면, 배열 내 모든 원소에 대해 적용이 됩니다.
X + 1

array([[2, 2],
       [1, 3],
       [5, 5]])

In [6]:
X.shape, y.shape

((3, 2), (2,))

In [5]:
y = np.array([10, 100])

# y를 더해주는 연산이 X의 각 행마다 적용됩니다. 
# 이처럼 배열의 형상이 다르더라도, 일치하는 축을 기준으로 연산이 수행됩니다. 
# 이를 "브로드 캐스팅"이라 부릅니다.
X + y

array([[ 11, 101],
       [ 10, 102],
       [ 14, 104]])

In [19]:
x = np.array([[1], 
              [2], 
              [3]])

y = np.array([[2, 3, 4]])

x + y

array([[3, 4, 5],
       [4, 5, 6],
       [5, 6, 7]])

# 축 이해하기

In [20]:
X = np.array([[1, 1], 
              [0, 2],
              [4, 4]])

# X의 모든 원소에 대한 평균, 더하기, 표준편차 등은 다음과 같이 계산할 수 있습니다.
X.mean() == np.mean(X)
X.sum() == np.sum(X)
X.std() == np.std(X)

True

In [21]:
# 이때 축(axis)를 설정해주면, 해당 축을 기준으로 평균, 더하기 등을 계산해줍니다.

mean = np.mean(X, axis=0)
mean

array([1.66666667, 2.33333333])

In [22]:
# 0번째 축이 사라진 걸 보실 수 있습니다.
mean.shape

(2,)

In [23]:
# keepdims=True로 설정하면, 배열의 차원(dims)은 변하지 않습니다.
mean2 = np.mean(X, axis=0, keepdims=True)
mean2

array([[1.66666667, 2.33333333]])

In [24]:
mean2.shape

(1, 2)

In [25]:
mean.ndim == mean2.ndim

False

# 연산 가속화

numpy의 장점은 벡터 또는 행렬 계산을 효율적으로 수행한다는 점입니다. 

In [26]:
# 이 부분의 예제 코드는 andrew ag의 딥러닝 강좌에서 가져왔습니다.
# https://www.youtube.com/watch?v=qsIrQi0fzbY&list=PLkDaE6sCZn6Ec-XTbcX1uRg2_u4xOEky0&index=17
## for문 보다 numpy가 훨씬 빠르다!!!
import numpy as np
import time 

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()

print(c)
print("Vectorized version: ", 1000*(toc-tic), "ms")

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()

print()
print(c)
print("For loop version  : ", 1000*(toc-tic), "ms")


250085.73099667614
Vectorized version:  23.063182830810547 ms

250085.73099667637
For loop version  :  358.07085037231445 ms


위에서 보듯이, 원소끼리 일일이 계산하는 것보다 벡터로 계산하는 것이 낫습니다. 마찬가지로 벡터끼리 일일이 계산하는 것보다 행렬 곱으로 계산하면 연산을 빠르게 할 수 있습니다. 아래 예제는 유클리디안 거리를 3가지 다른 방식으로 계산한 것입니다. `for`문을 적게 사용할수록 연산 속도가 빨라지는 것을 확인하실 수 있습니다. 일반적으로 `for`문을 사용하는 대신, 행렬 곱을 이용해 연산을 한번에 처리하는 것이 좋습니다.

In [27]:
X = np.random.rand(1000, 100)
Y = np.random.rand(100, 100)

X_size = X.shape[0]
Y_size = Y.shape[0]

        
# for문 2번 사용
dists = np.zeros((X_size, Y_size))
tic = time.time()
for i in range(X_size):
    for j in range(Y_size):
        dists[i, j] = np.sqrt(np.sum((X[i] - Y[j])**2))
toc = time.time()
print(np.linalg.norm(dists))
print("Two For loops: ", 1000*(toc-tic), "ms")


# for문 1번 사용
dists = np.zeros((X_size, Y_size))
tic = time.time()
for i in range(X_size):
    dists[i, :] = np.sqrt(np.sum((X[i] - Y)**2, axis=1))
toc = time.time()
print()
print(np.linalg.norm(dists))
print("One For Loop : ", 1000*(toc-tic), "ms")


# for문 0번 사용
tic = time.time()
dists = np.sqrt(np.sum(X**2, axis=1, keepdims=True) 
                    + np.sum(Y**2, axis=1)
                    - 2 * np.dot(X, Y.T))
toc = time.time()
print()
print(np.linalg.norm(dists))
print("Zero For Loop: ", 1000*(toc-tic), "ms")

1291.8165647115566
Two For loops:  546.5366840362549 ms

1291.8165647115566
One For Loop :  18.920421600341797 ms

1291.8165647115566
Zero For Loop:  7.979631423950195 ms


In [7]:
v1 = np.array([1, 2, 3])
v2 = np.array([4, 2, 3])

np.linalg.norm(v1) # v1의 벡터값 구하기

3.7416573867739413