In [1]:
import numpy as np

In [2]:
# 벡터화 연산
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [3]:
%%time

z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

Wall time: 3 ms


In [4]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [5]:
%%time

z = x + y # ndarray가 for문보다 압도적으로 빠른 것을 알 수 있다.

Wall time: 0 ns


In [6]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [7]:
# 벡터화 논리 연산

a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [8]:
a == b

array([False,  True, False,  True])

In [9]:
a >= b

array([False,  True,  True,  True])

In [10]:
(a == b) & (a >= b) # 옆에와 같이 해야 성분간 비교가 가능

array([False,  True, False,  True])

In [11]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [12]:
np.all(a == b) # np.all을 쓰면 모든 요소에 대하여 비교한다.

False

In [13]:
np.all(a == c)

True

In [14]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [16]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [17]:
100 * x # reshape과 구분없이 스칼라 곱이 된다.

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

In [18]:
# 브로드캐스팅
# 보통 배열끼리 산술 연산을 하려면 아래의 예제처럼
# 두 배열의 shapes가 정확히 같아야 한다.

a = np.array([1.0, 2.0, 3.0])
b = np.array([2.0, 2.0, 2.0])
a * b

array([2., 4., 6.])

In [19]:
# numpy array는 모양이 다른 배열 간의 연산이 가능하도록
# 배열의 크기를 변환시켜주는 브로드캐스팅(broadcasting)지원

# numpy가 처리하는 브로드캐스팅 방법은 더 작은 배열이
# 더 큰 배열에 호환되는 모양으로 확장하는 식이다.

a = np.array([1.0, 2.0, 3.0])
b = 2.0
a * b

# 스칼라 곱이 적은 메모리를 사용하므로 효율적

array([2., 4., 6.])

In [20]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [21]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [22]:
x + y

array([1, 2, 3, 4, 5])

In [23]:
x + 1

array([1, 2, 3, 4, 5])

In [24]:
# 브로드캐스팅의 규칙
# 넘파이 배열의 shape을 우측 정렬하고 각 차원별 숫자 비교
# 비교하는 모든 차원이 두 조건 중 하나에 충족되어야 브로드캐스팅 가능
# a. 해당 차원 간의 숫자가 동일한 경우
# b. 해당 차원 중 하나가 1인 경우

In [25]:
# 만약 같은 자리의 숫자중 하나가 1이 아닐 경우 
# 무조건 broadcasting 안 된다.

In [26]:
# 차원 축소 연산
# numpy는 다음과 같은 차원 축소 연산 명령 혹은 메서드 지원

# 최대/최소 : min, max, argmin, argmax
# 통계 : sum, mean, median, std, var
# 불리언 : all, any

In [27]:
# sum()
# sum() 메서드는 해당 배열의 합산 결과 반환
# 연산 대상이 2차원 이상일 때에는 axis 키워드 인수 사용 가능

x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [28]:
np.sum(x)

10

In [29]:
x.sum() # np.sum()과 ndarray.sum()는 동등한 메서드
# x가 ndarray

10

In [30]:
x = np.arange(12).reshape(3, -1)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [31]:
x.sum(axis = 0) # axis = 0은 행 간의 연산 결과 계산

array([12, 15, 18, 21])

In [32]:
x.sum(axis = 1) # axis = 1은 열 간의 연산 결과 계산

array([ 6, 22, 38])

In [33]:
# min()
# min() 메서드는 해당 배열의 가장 작은 값의 결과 반환
# 연산 대상이 2차원 이상일 때에는 axis 키워드 인수 사용 가능

x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [34]:
x.min()

0

In [35]:
np.min(x)

0

In [36]:
x.min(axis = 0)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [37]:
np.min(x, axis = 1)

array([[ 0,  1],
       [10, 11]])

In [38]:
x.min(axis = 2)

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18]])

In [39]:
# argmin()
# argmin()메서드는 해당 배열의 제일 작은 값의 인덱스 반환
# 연산 대상이 2차원 이상일 때에는 axis 키워드 인수 사용 가능

In [40]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [41]:
x.min()

0

In [42]:
np.min(x)

0

In [43]:
x.min(axis = 0)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [44]:
np.min(x, axis = 1)

array([[ 0,  1],
       [10, 11]])

In [45]:
x.min(axis = 2)

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18]])

In [46]:
# max()
# max()메서드는 해당 배열의 제일 큰 값의 결과 반환
# 연산 대상이 2차원 이상일 때에는 axis 키워드 인수 사용 가능

x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [47]:
x.max()

19

In [48]:
np.max(x)

19

In [49]:
x.max(axis = 0)

array([[10, 11],
       [12, 13],
       [14, 15],
       [16, 17],
       [18, 19]])

In [50]:
np.max(x, axis = 1)

array([[ 8,  9],
       [18, 19]])

In [51]:
x.max(axis = 2)

array([[ 1,  3,  5,  7,  9],
       [11, 13, 15, 17, 19]])

In [52]:
# argmax()
# argmax() 메서드는 해당 배열의 제일 큰 값의 인덱스를 반환
# 연산 대상이 2차원 이상일 때에는 axis 키워드 인수 사용 가능

In [53]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [54]:
x.argmax()

19

In [55]:
np.argmax(x)

19

In [56]:
x.argmax(axis = 0)

array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]], dtype=int64)

In [57]:
np.argmax(x, axis = 1)

array([[4, 4],
       [4, 4]], dtype=int64)

In [58]:
x.argmax(axis = 2)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]], dtype=int64)

In [59]:
# mean(), median(), np.all(), np.any()
# mean()은 평균
x = np.array([1, 2, 3, 1])
x.mean()

1.75

In [60]:
# median()은 중앙값
np.median(x)

1.5

In [61]:
# np.all()은 배열 요소가 모두 True일 때 True반환
# 하나라도 False면 False 반환
np.all([True, True, False])

False

In [62]:
# np.any()는 배열 요소가 하나라도 True면 True반환
# 전부 False면 False 반환
np.any([True, True, False])

True

In [63]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [64]:
((a <= b) & (b <= c)).all()

True

In [65]:
a = np.zeros((100, 100), dtype = np.int64)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [66]:
np.any(a != 0)

False

In [67]:
np.all(a == a)

True

In [68]:
# 정렬
# numpy.sort()를 사용하여 배열 안의 원소를 크기에 따라
# 정렬하여 새로운 배열을 만들 수 있다.
# 2차원 이상일 경우에는 행이나 열을 각각 따로따로 정렬하는데
# axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬할 것인지
# 결정한다.

# axis = 0이면 각각의 행을 따로따로 정렬하고,
# axis = 1이면 각각의 열을 따로따로 정렬한다.
# 디폴트 값은 -1 즉 가장 안쪽(나중) 차원이다.

In [69]:
a = np.array([[4, 3, 5, 7],
              [1, 12, 11, 9],
              [2, 15, 1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [70]:
np.sort(a) # axis = -1 또는 axis = 1 과 동일
# 행 내부에서 열간 비교 후 정렬

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [71]:
np.sort(a, axis = 0)
# 열 내부에서 행간 비교 후 정렬

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [72]:
a = np.array([[4, 3, 5, 7],
             [1, 12, 11, 9],
             [2, 15, 1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [73]:
a.sort(axis = 1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [74]:
# 만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort명령 사용
a = np.array([42, 38, 12, 25])
j = np.argsort(a) # 인덱스를 저장
j 

array([2, 3, 1, 0], dtype=int64)

In [75]:
a[j]

array([12, 25, 38, 42])

In [76]:
np.sort(a)

array([12, 25, 38, 42])

In [77]:
# 고급 인덱싱 - 인덱스 배열을 사용한 인덱싱
# 인덱싱을 할 때 인덱스 위치를 나타내는 배열을 활용하여 인덱싱이 가능
# 아래의 예제는 a[0, 0], a[1, 1], a[2, 0]을 인덱스로 하는 값을
# 각각 인덱싱하는 것을 볼 수 있다.

a = np.array([[1, 2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [78]:
print(a[[0, 1, 2],[0, 1, 0]])
# a[0, 0], a[1, 1], a[2, 0]을 인덱스로 하는 1차원 배열
# (shape = (3, ))을 출력해준다.

[1 4 5]


In [79]:
# 슬라이싱 범위도 결국 인덱스 배열이다.
# 아래 예제는 행에 대해서는 슬라이싱 전체 범위 표현,
# 이는 [0, 1, 2]라는 범위를 나타내는 인덱스 배열과 동일한 결과를 가져온다.

a = np.array([[1, 2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [80]:
print(a[:, [0, 1, 0]]) # 각 행에 대하여 [0, 1, 0]을 출력
# 따라서 1, 2, 1
# 3, 4, 5
# 5, 6, 5가 나오게 된다.

[[1 2 1]
 [3 4 3]
 [5 6 5]]
