In [1]:
import numpy as np

# A.2 고급 배열 조작 기법

In [2]:
# 배열을 세련된 방법으로 색인하고, 나누고, 불리언으로 값의 일부를 취하는 다양한 방법이 존재한다.
# 데이터 분석 애플리케이션에서 까다로운 대부분의 작업은 pandas의 상위레벨 함수에서 처리하지만 라이브러리에 존재하지 않는 데이터 알고리즘을 직접 작성해야하는 경우도 있다.

    - A.2.1 배열 재형성하기

In [3]:
# NumPy 배열에 대해 지금까지 배운 내용으로 배열의 데이터를 복사하지 않고 다른 모양으로 변환할 수 있다는 것은 약간 놀라운 점이다.
# 배열의 모양을 변환하려면 배열의 인스턴스 메서드인 reshape 메서드에 새로운 모양을 나타내는 튜플을 넘기면 된다.
# 예를 들어 1차원 배열을 행렬로 바꾸려 한다고 가정해보자(결과는 그림 A-3 참조 - 페이지 591)

In [4]:
arr = np.arange(8)

In [5]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [6]:
arr.reshape((4, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [7]:
# 다차원 배열 또한 재형성이 가능하다.

In [8]:
arr.reshape((4, 2)).reshape((2, 4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [9]:
# reshape에 넘기는 값 중 하나가 -1이 될 수도 있는데 이 경우에는 원본 데이터를 참조해서 적절한 값을 추론하게 된다.

In [10]:
arr = np.arange(15)

In [11]:
arr.reshape((5, -1))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [12]:
# 배열의 shape 속성은 튜플이기 때문에 reshape 메서드에 이를 직접 넘기는 것도 가능하다.

In [13]:
other_arr = np.ones((3, 5))

In [14]:
other_arr.shape

(3, 5)

In [15]:
arr.reshape(other_arr.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [16]:
# 다차원 배열을 낮은 차원으로 변환하는 것은 평탄화라고 한다.

In [17]:
arr = np.arange(15).reshape((5, 3))

In [18]:
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [19]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [20]:
# ravel 메서드는 필요하지 않다면 원본 데이터의 복사본을 생성하지 않는다.
# flatten 메서드는 ravel 메서드와 유사하게 동작하지만 항상 데이터의 복사본을 반환한다.

In [21]:
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

    - A.2.2 C 순서와 포트란 순서

In [22]:
# R과 매트랩 같은 다른 과학 계산 환경과는 다르게 NumPy는 메모리상의 데이터의 배치에 대한 유연하고 다양한 제어기능을 제공한다.
# 기본적으로 NumPy 배열은 로우 우선 순서로 생성된다.
# 이 말은 만약 2차원 배열이 있다면 배열의 각 로우에 해당하는 데이터들은 공간적으로 인접한 메모리에 적재된다는 뜻이다.
# 로우 우선 순서가 아니면 컬럼 우선 순서를 가지게 되는데 이때는 각 컬럼에 담긴 데이터들이 인접한 메모리에 적재된다.

In [23]:
# 역사적으로 보면 로우와 컬럼 우선 순서는 각각 C 순서와 포트란 순서로 알려져 있다.
# 고전 프로그래밍 언어인 포트란 77의 경우 배열은 컬럼 우선 순서로 저장된다.

In [24]:
# reshape나 ravel 같은 함수는 배열에서 데이터의 순서를 나타내는 인자를 받는다.
# 이 값은 대부분의 경우 "C" 아니면 "F"인데 아주 드물게 "A"나 "K"를 쓰기도 한다.
# 자세한 내용은 NumPy 공식 문서를 참고하자. 앞의 [그림 A-3]에 이 내용을 그림으로 표현했다.

In [25]:
arr = np.arange(12).reshape((3, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [26]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [27]:
arr.ravel("F")

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

In [28]:
# 배열을 2차원 이상으로 재형성하면 뇌를 혹사시키게 된다.
# C와 포트란 순서의 핵심적인 차이는 어느 차원부터 처리하느냐다.

- C: 로우 우선 순서
    - 상위 차원을 우선 탐색한다(1번 축을 0번 축보다 우선 탐색)
- 포트란: 컬럼 우선 순서
    - 상위 차원을 나중에 탐색한다(0번 축을 1번 축보다 우선 탐색)

    - A.2.3 배열 이어붙이고 나누기

In [29]:
# numpy.concatenate는 배열의 목록(튜플, 리스트 등)을 받아서 주어진 axis에 따라 하나의 배열로 합쳐준다.

In [30]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])

In [31]:
arr2 = np.array([[7, 8, 9], [10, 11, 12]])

In [32]:
np.concatenate([arr1, arr2], axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [33]:
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [34]:
# vstack과 hstack 함수를 이용하면 이어붙이기 작업을 쉽게 처리할 수 있다.
# 위 연산은 vstack과 hstack 메서드를 사용해서 다음처럼 쉽게 표현할 수 있다.

In [35]:
np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [36]:
np.hstack((arr1, arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [37]:
# 반면 split 메서드를 사용하면 하나의 배열을 축을 따라 여러 개의 배열로 나눌 수 있다.

In [38]:
arr = np.random.randn(5, 2)

In [39]:
arr

array([[-0.41647374,  1.02516078],
       [ 0.43324888, -0.56446777],
       [-0.48714247, -0.7013615 ],
       [ 0.74587212,  0.80005569],
       [-1.07286064, -0.07611906]])

In [40]:
first, second, third = np.split(arr, [1, 3])

In [41]:
first

array([[-0.41647374,  1.02516078]])

In [42]:
second

array([[ 0.43324888, -0.56446777],
       [-0.48714247, -0.7013615 ]])

In [43]:
third

array([[ 0.74587212,  0.80005569],
       [-1.07286064, -0.07611906]])

In [44]:
# np.split에 전달된 값 [1, 3]은 배열을 나눌 때 기준이 되는 위치를 나타낸다.

In [45]:
# [표 A-1]에 관련 함수의 목록을 정리해두었다. 그중 일부 함수는 아주 일반적인 목적의 이어붙이기 작업을 간단하게 처리하기 위해 제공되는 함수다. 페이지 595-596

- 배열 쌓기 도우미: r_과 c_

In [46]:
# NumPy의 네임스페이스에는 r_과 c_라는 두 가지 특수한 객체가 있는데 배열 쌓기를 좀 더 편리하게 해준다.

In [47]:
arr = np.arange(6)

In [48]:
arr1 = arr.reshape((3, 2))

In [49]:
arr2 = np.random.randn(3, 2)

In [50]:
np.r_[arr1, arr2]

array([[ 0.        ,  1.        ],
       [ 2.        ,  3.        ],
       [ 4.        ,  5.        ],
       [ 0.38413453, -1.76714753],
       [ 0.52300125,  2.37627021],
       [-0.46214743,  1.58245436]])

In [51]:
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.        ,  1.        ,  0.        ],
       [ 2.        ,  3.        ,  1.        ],
       [ 4.        ,  5.        ,  2.        ],
       [ 0.38413453, -1.76714753,  3.        ],
       [ 0.52300125,  2.37627021,  4.        ],
       [-0.46214743,  1.58245436,  5.        ]])

In [52]:
# 또한 슬라이스를 배열로 변환해준다.

In [54]:
np.c_[1:6, -10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

In [55]:
# c_와 r_로 할 수 있는 자세한 내용은 NumPy 문서를 참고하자.

    - A.2.4 원소 반복하기: repeat와 tile    

In [56]:
# 큰 배열을 만들기 위해 배열을 반복하거나 복제하는 함수로 repeat와 tile이 있다.
# repeat는 한 배열의 각 원소를 원하는 만큼 복제해서 큰 배열을 생성한다.

In [57]:
arr = np.arange(3)

In [58]:
arr

array([0, 1, 2])

In [59]:
arr.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

- NOTE_ NumPy를 사용하면서 배열을 반복하거나 같은 배열을 복사하는 일은 매트랩 같은 유명한 다른 배열 처리 언어에 비하면 흔치 않다.
- 주된 이유는 다음 절에서 다룰 브로드캐스팅이 훨씬 더 적합하기 때문이다.

In [60]:
# 기본적으로 정수를 넘기면 각 배열은 그 수만큼 반복된다.
# 만약 정수의 배열을 넘긴다면 각 원소는 배열에 담긴 정수만큼 다르게 반복될 것이다.

In [61]:
arr.repeat([2, 3, 4])

array([0, 0, 1, 1, 1, 2, 2, 2, 2])

In [62]:
# 다차원 배열의 경우에는 특정 축을 따라 각 원소가 반복된다.

In [63]:
arr = np.random.randn(2, 2)

In [64]:
arr

array([[ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833]])

In [65]:
arr.repeat(2, axis=0)

array([[ 1.01790656,  0.57128535],
       [ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833],
       [-0.96411187,  1.42640833]])

In [66]:
# 다차원 배열에서 만약 axis 인자를 넘기지 않으면 배열이 평탄화되므로 주의하자. 
# repeat 메서드에 정수의 배열을 넘기면 축을 따라 배열에서 지정한 횟수만큼 원소가 반복된다.

In [67]:
arr.repeat([2, 3], axis=0)

array([[ 1.01790656,  0.57128535],
       [ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833],
       [-0.96411187,  1.42640833],
       [-0.96411187,  1.42640833]])

In [68]:
arr.repeat([2, 3], axis=1)

array([[ 1.01790656,  1.01790656,  0.57128535,  0.57128535,  0.57128535],
       [-0.96411187, -0.96411187,  1.42640833,  1.42640833,  1.42640833]])

In [69]:
# tile 메서드는 축을 따라 배열을 복사해서 쌓는 함수다.
# 타일을 이어붙이듯이 같은 내용의 배열을 이어붙인다고 생각하면 된다.

In [70]:
arr

array([[ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833]])

In [71]:
np.tile(arr, 2)

array([[ 1.01790656,  0.57128535,  1.01790656,  0.57128535],
       [-0.96411187,  1.42640833, -0.96411187,  1.42640833]])

In [72]:
# tile 메서드의 두 번째 인자는 타일의 개수로, 스칼라값이며 컬럼 대 컬럼이 아니라 로우 대 로우로 이어붙이게 된다.
# tile 메서드의 두 번째 인자는 타일을 이어붙일 모양을 나타내는 튜플이 될 수 있다.

In [73]:
arr

array([[ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833]])

In [74]:
np.tile(arr, (2, 1))

array([[ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833],
       [ 1.01790656,  0.57128535],
       [-0.96411187,  1.42640833]])

In [75]:
np.tile(arr, (3, 2))

array([[ 1.01790656,  0.57128535,  1.01790656,  0.57128535],
       [-0.96411187,  1.42640833, -0.96411187,  1.42640833],
       [ 1.01790656,  0.57128535,  1.01790656,  0.57128535],
       [-0.96411187,  1.42640833, -0.96411187,  1.42640833],
       [ 1.01790656,  0.57128535,  1.01790656,  0.57128535],
       [-0.96411187,  1.42640833, -0.96411187,  1.42640833]])

# A.2.5 팬시 색인: take와 put

In [76]:
# 4장에서 배운 내용을 기억해보면 정수 배열을 사용한 팬시 색인 기능으로 배열의 일부 값을 지정하거나 가져올 수 있었다.

In [77]:
arr = np.arange(10) * 100

In [78]:
inds = [7, 1, 2, 6]

In [79]:
arr[inds]

array([700, 100, 200, 600])

In [80]:
# ndarray에는 단일 축에 대한 값을 선택할 때만 사용할 수 있는 유용한 메서드가 있다.

In [81]:
arr.take(inds)

array([700, 100, 200, 600])

In [82]:
arr.put(inds, 42)

In [83]:
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [84]:
arr.put(inds, [40, 41, 42, 43])

In [85]:
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [86]:
# 다른 축에 take 메서드를 적용하려면 axis 인자를 넘기면 된다.

In [87]:
inds = [2, 0, 2, 1]

In [88]:
arr = np.random.randn(2, 4)

In [89]:
arr

array([[-1.48094176, -2.27561726,  0.60089864, -0.86160337],
       [-0.06303353, -0.14190342, -0.2331922 , -0.24577345]])

In [90]:
arr.take(inds, axis=1)

array([[ 0.60089864, -1.48094176,  0.60089864, -2.27561726],
       [-0.2331922 , -0.06303353, -0.2331922 , -0.14190342]])

In [91]:
# put 메서드는 axis 인자를 받지 않고 평탄화된 배열(1차원, C 순서)에 대한 색인을 받는다(변경될 가능성이 있다).
# 따라서 다른 축에 대한 색인 배열을 사용해서 배열의 원소에 값을 넣으려면 팬시 색인을 이용하는 편이 쉬울 것이다.