# 12. 고급 NumPy
> ## 고급 배열 조작 기법



In [1]:
import numpy as np
import pandas as pd

___
## 1. 배열 재형성 하기

In [2]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [3]:
arr.reshape(4,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [4]:
arr.reshape(4,2).reshape(2,4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

- reshape 메서드를 사용, 다차원 배열 재형성도 가능

In [5]:
arr = np.arange(15)
arr.reshape(5,-1)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

- -1를 배열 값으로 지정 시 원본 데이터를 참조하여 적절한 값 추론

In [7]:
other_arr = np.ones((3,5))
arr.reshape(other_arr.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

- shape의 속성은 튜플이기 때문에 reshape 메서드에 튜플값을 넘기는 것도 당연히 가능

In [8]:
arr = np.arange(15).reshape(5,3)
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [10]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

- ravel 메서드로 배열 평탄화 가능
- ravel 메서드는 복사본 생성x

In [11]:
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

- flatten 메서드는 ravel과 동일한 기능 수행
- flatten 메서드는 원본데이터의 복사본 생성
___
## 2. C와 포트란 순서

In [12]:
arr = np.arange(12).reshape(3,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [13]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [14]:
arr.ravel('F')

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

In [15]:
arr.ravel('C')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

- 로우, 칼럼 순서는 역사적으로 C 순서, 포트란 순서로 알려져 있음
- NumPy는 기본적으로 로우 우선순위를 갖지만(C순서), 칼럼 우선순위 지정 가능
___
## 3. 배열 이어붙이고 나누기

In [18]:
arr1 = np.array([[1,2 ,3], [4, 5 ,6]])
arr2= np.array([[7, 8, 9], [10, 11, 12]])
np.concatenate([arr1, arr2], axis = 0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [22]:
np.concatenate([arr1, arr2], axis = 1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

- axis의 값에 따라 기준이 달라짐

In [24]:
np.vstack([arr1,arr2])

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [25]:
np.hstack([arr1, arr2])

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

- np.concatenate 대신 vstack, hstack을 사용해서 간단히 병합 가능

In [26]:
from numpy.random import randn

In [27]:
arr = randn(5,2)
arr

array([[-0.70201254,  0.02666921],
       [-2.07397784,  0.11515378],
       [-1.26929515, -0.63155999],
       [ 0.16077998,  0.35893182],
       [-0.91297226,  0.60458426]])

In [28]:
first, second, third = np.split(arr, [1,3])
first

array([[-0.70201254,  0.02666921]])

In [29]:
second

array([[-2.07397784,  0.11515378],
       [-1.26929515, -0.63155999]])

In [30]:
third

array([[ 0.16077998,  0.35893182],
       [-0.91297226,  0.60458426]])

- split 메서드로 하나의 배열을 축을 따라 여러개의 배열로 분할 가능

In [32]:
arr = np.arange(6)

arr1 = arr.reshape(3,2)

arr2 = randn(3,2)

np.r_[arr1, arr2]

array([[ 0.        ,  1.        ],
       [ 2.        ,  3.        ],
       [ 4.        ,  5.        ],
       [ 0.11795158, -0.47435019],
       [-0.88771162, -0.58017876],
       [-0.03182524, -1.30464688]])

In [33]:
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.        ,  1.        ,  0.        ],
       [ 2.        ,  3.        ,  1.        ],
       [ 4.        ,  5.        ,  2.        ],
       [ 0.11795158, -0.47435019,  3.        ],
       [-0.88771162, -0.58017876,  4.        ],
       [-0.03182524, -1.30464688,  5.        ]])

In [34]:
np.c_[1:6, -10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

- r\_과 c\_ 메서드는 배열 쌓기를 좀 더 편리하게 도와줌
- r\_는 행기준 병합, c\_는 열기준 병합
___
## 4. 원소 반복시키기: repeat과 tile

In [35]:
arr = np.arange(3)
arr.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [37]:
arr.repeat([1, 2, 3])

array([0, 1, 1, 2, 2, 2])

- repeat 메서드는 배열 내 각 원소를 원하는 만큼 반복
- 배열 입력 시 각 원소만큼 다르게 반복

In [39]:
arr = randn(2,2)
arr

array([[-1.28450233, -1.74392755],
       [-1.63626653,  1.83894289]])

In [40]:
arr.repeat(2, axis = 0)

array([[-1.28450233, -1.74392755],
       [-1.28450233, -1.74392755],
       [-1.63626653,  1.83894289],
       [-1.63626653,  1.83894289]])

In [41]:
arr.repeat([2,3], axis = 0)

array([[-1.28450233, -1.74392755],
       [-1.28450233, -1.74392755],
       [-1.63626653,  1.83894289],
       [-1.63626653,  1.83894289],
       [-1.63626653,  1.83894289]])

In [42]:
arr.repeat([2,3], axis = 1)

array([[-1.28450233, -1.28450233, -1.74392755, -1.74392755, -1.74392755],
       [-1.63626653, -1.63626653,  1.83894289,  1.83894289,  1.83894289]])

- 다차원 배열의 repeat의 경우 축을 따라 지정한 횟수만큼 원소 반복

In [43]:
np.tile(arr, 2)

array([[-1.28450233, -1.74392755, -1.28450233, -1.74392755],
       [-1.63626653,  1.83894289, -1.63626653,  1.83894289]])

- tile 함수는 배열을 복사해서 쌓는 함수
- 원소가 복사되는 repeat과 상이

In [44]:
arr

array([[-1.28450233, -1.74392755],
       [-1.63626653,  1.83894289]])

In [45]:
np.tile(arr, (2,1))

array([[-1.28450233, -1.74392755],
       [-1.63626653,  1.83894289],
       [-1.28450233, -1.74392755],
       [-1.63626653,  1.83894289]])

In [47]:
np.tile(arr, (3,2))

array([[-1.28450233, -1.74392755, -1.28450233, -1.74392755],
       [-1.63626653,  1.83894289, -1.63626653,  1.83894289],
       [-1.28450233, -1.74392755, -1.28450233, -1.74392755],
       [-1.63626653,  1.83894289, -1.63626653,  1.83894289],
       [-1.28450233, -1.74392755, -1.28450233, -1.74392755],
       [-1.63626653,  1.83894289, -1.63626653,  1.83894289]])

- tile은 axis 옵션 대신 2번째 인자에 튜플 입력이 가능하며, 이를 통해 어떤 모양으로 차원을 복사할지 결정
___
## 5. 팬시 색인: take와 put

In [48]:
arr = np.arange(10) * 100
ind = [7, 1, 2, 6]
arr[ind]

array([700, 100, 200, 600])

- 정수 배열을 사용한 팬시 색인 가능

In [49]:
arr.take(ind)

array([700, 100, 200, 600])

In [50]:
arr.put(ind, 42)
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [53]:
arr.put(ind, [range(41, 45)])
arr

array([  0,  42,  43, 300, 400, 500,  44,  41, 800, 900])

- take는 지정 위치의 값을 가져오는 위치기반 색인 기능
- put은 지정 위치에 값을 지정하는 기능

In [54]:
ind = [2, 0, 2, 1]
arr = randn(2,4)
arr

array([[-0.06878927,  0.36782679, -0.96805358, -0.18967363],
       [ 0.28476905, -0.9802558 , -0.44959937,  0.66599339]])

In [55]:
arr.take(ind)

array([-0.96805358, -0.06878927, -0.96805358,  0.36782679])

In [56]:
arr.take(ind, axis= 1)

array([[-0.96805358, -0.06878927, -0.96805358,  0.36782679],
       [-0.44959937,  0.28476905, -0.44959937, -0.9802558 ]])

- axis 지정에 따라 다른 값 반환

In [57]:
arr.take([[0,0],[1,1]])

array([[-0.06878927, -0.06878927],
       [ 0.36782679,  0.36782679]])