# Python for Data Analysis - part14

##### Python의 numpy, pandas 등을 정리하였으며 파이썬 라이브러리를 활용한 데이터분석(2판)을 참고하여 작성하였습니다.
##### 해당 자료는 python 3.6 기반으로 작성되었습니다.

## 14. 고급 Numpy
### 14.1 ndarray 객체 구조
#### - 데이터 포인터 : ram이나 메모리 맵 파일에서 데이터의 블록
#### - dtype은 배열 내에서 값을 담는 고정된 크기를 나타낸다
#### - 배열의 모양을 알려주는 튜플
#### - 하나의 차원을 따라 다음 원소로 몇 바이트 이동해야 하는지를 나타내는 stride를 담고 있는 튜플

In [6]:
import numpy as np
print(np.ones((10,5)).shape)
print("------------------------------------------")

print(np.ones((3,4,5), dtype = np.float64).strides)
print("------------------------------------------")

# stride값은 복사가 이루어지지 않는 배열의 뷰를 생성하는 데 중요한 역할

(10, 5)
------------------------------------------
(160, 40, 8)
------------------------------------------


#### 14.1.1 numpy dtype 구조

In [11]:
ints = np.ones(10, dtype=np.int16)
floats = np.ones(10, dtype = np.float32)

print(np.issubdtype(ints.dtype, np.integer))
print("------------------------------------------")

print(np.issubdtype(floats.dtype, np.floating))
print("------------------------------------------")

# mro() - dtype의 모든 부모 클래스 확인
print(np.float64.mro())
print("------------------------------------------")

print(np.issubdtype(ints.dtype, np.number))
print("------------------------------------------")

True
------------------------------------------
True
------------------------------------------
[<class 'numpy.float64'>, <class 'numpy.floating'>, <class 'numpy.inexact'>, <class 'numpy.number'>, <class 'numpy.generic'>, <class 'float'>, <class 'object'>]
------------------------------------------
True
------------------------------------------


### 14.2 고급 배열 조작 기법
#### 14.2.1 배열 재형성하기

In [14]:
#### reshape - 배열의 모양을 변경
arr = np.arange(8)
print(arr)
print("------------------------------------------")

print(arr.reshape((4,2)))
print("------------------------------------------")

print(arr.reshape((4,2)).reshape((2,4)))
print("------------------------------------------")

[0 1 2 3 4 5 6 7]
------------------------------------------
[[0 1]
 [2 3]
 [4 5]
 [6 7]]
------------------------------------------
[[0 1 2 3]
 [4 5 6 7]]
------------------------------------------


In [15]:
arr = np.arange(15)
print(arr.reshape((5, -1)))
print("------------------------------------------")

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
------------------------------------------


In [17]:
other_arr = np.ones((3,5))
print(other_arr.shape)
print("------------------------------------------")

print(arr.reshape(other_arr.shape))
print("------------------------------------------")

(3, 5)
------------------------------------------
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
------------------------------------------


In [20]:
# 평탄화 - 다차원 배열을 낮은 차원으로 변환
arr = np.arange(15).reshape((5,3))
print(arr)
print("------------------------------------------")

print(arr.ravel())
print("------------------------------------------")

print(arr.flatten())
print("------------------------------------------")

# ravel은 원본 데이터의 복사본을 생성하지 않음 / flatten은 데이터의 복사본을 반환

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
------------------------------------------
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
------------------------------------------
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
------------------------------------------


#### 14.2.2 C순서와 포트란 순서
#### - numpy는 메모리상의 데이터의 배치에 대한 유연하고 다양한 제어 기능을 제공
#### - numpy 배열은 로우 우선 순서로 생성 
#### - 2차원 배열이 있다면 배열의 각 로우에 해당하는 데이터들은 공간적으로 인접한 메모리에 적재된다는 뜻 -> c 순서
#### - 로우 우선 순서가 아니면 칼럼 우선 순서를 가지게 되는데 이때는 칼럼들이 인접하게 적재 -> 포트란 순서

In [21]:
arr = np.arange(12).reshape((3,4))
print(arr)
print("------------------------------------------")

print(arr.ravel())
print("------------------------------------------")

print(arr.ravel('F'))
print("------------------------------------------")

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
------------------------------------------
[ 0  1  2  3  4  5  6  7  8  9 10 11]
------------------------------------------
[ 0  4  8  1  5  9  2  6 10  3  7 11]
------------------------------------------


#### 14.2.3 배열 이어붙이고 나누기

In [22]:
# concatenate - 배열의 목록을 받아서 주어진 축에 따라 하나의 배열로 합쳐준다. 
arr1 = np.array([[1,2,3], [4,5,6]])
arr2 = np.array([[7,8,9], [10, 11, 12]])

print(np.concatenate([arr1, arr2], axis = 0))
print("------------------------------------------")

print(np.concatenate([arr1, arr2], axis = 1))
print("------------------------------------------")

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
------------------------------------------
[[ 1  2  3  7  8  9]
 [ 4  5  6 10 11 12]]
------------------------------------------


In [24]:
# vstack - axis = 0 / hstack - axis = 1
print(np.vstack((arr1, arr2)))
print("------------------------------------------")

print(np.hstack((arr1, arr2)))
print("------------------------------------------")

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
------------------------------------------
[[ 1  2  3  7  8  9]
 [ 4  5  6 10 11 12]]
------------------------------------------


In [26]:
# split - 하나의 배열을 축을 따라 여러 개의 배열로 나눌 수 잇음
arr = np.random.randn(5,2)
print(arr)
print("------------------------------------------")

first, second, third = np.split(arr, [1,3]) # 배열을 나눌 때 기준이 되는 위치
print(first)
print("------------------------------------------")

print(second)
print("------------------------------------------")

print(third)
print("------------------------------------------")

[[ 0.00226943  0.15639762]
 [ 1.06019349  0.45017069]
 [-0.35142173  0.57941563]
 [ 0.00482346 -0.28079927]
 [-0.75722892  1.88987171]]
------------------------------------------
[[0.00226943 0.15639762]]
------------------------------------------
[[ 1.06019349  0.45017069]
 [-0.35142173  0.57941563]]
------------------------------------------
[[ 0.00482346 -0.28079927]
 [-0.75722892  1.88987171]]
------------------------------------------


In [28]:
# r_ / c_ : 배열 쌓기를 좀더 편리하게 해줌
arr = np.arange(6)
arr1 = arr.reshape((3,2))
arr2 = np.random.randn(3,2)

print(np.r_[arr1, arr2])
print("------------------------------------------")


print(np.c_[np.r_[arr1, arr2], arr])
print("------------------------------------------")

print(np.c_[1:6, -10:-5])
print("------------------------------------------")

[[ 0.          1.        ]
 [ 2.          3.        ]
 [ 4.          5.        ]
 [ 0.98291925  0.84124891]
 [ 0.00521408  1.31361779]
 [-0.47621692  0.03722803]]
------------------------------------------
[[ 0.          1.          0.        ]
 [ 2.          3.          1.        ]
 [ 4.          5.          2.        ]
 [ 0.98291925  0.84124891  3.        ]
 [ 0.00521408  1.31361779  4.        ]
 [-0.47621692  0.03722803  5.        ]]
------------------------------------------
[[  1 -10]
 [  2  -9]
 [  3  -8]
 [  4  -7]
 [  5  -6]]
------------------------------------------


#### 14.2.4 원소 반복하기 : repeat & tile

In [30]:
# repeat - 한 배열의 각 원소를 원하는 만큼 복제해서 큰 배열을 생성
arr = np.arange(3)
print(arr)
print("------------------------------------------")

print(arr.repeat(3))
print("------------------------------------------")

print(arr.repeat([2,3,4]))
print("------------------------------------------")

[0 1 2]
------------------------------------------
[0 0 0 1 1 1 2 2 2]
------------------------------------------
[0 0 1 1 1 2 2 2 2]
------------------------------------------


In [33]:
arr = np.random.randn(2,2)
print(arr)
print("------------------------------------------")

print(arr.repeat(2, axis = 0))
print("------------------------------------------")

print(arr.repeat([2,3], axis = 0))
print("------------------------------------------")

print(arr.repeat([2,3], axis = 1))
print("------------------------------------------")

[[ 1.5942224  -0.30240284]
 [-0.72286263  0.68809626]]
------------------------------------------
[[ 1.5942224  -0.30240284]
 [ 1.5942224  -0.30240284]
 [-0.72286263  0.68809626]
 [-0.72286263  0.68809626]]
------------------------------------------
[[ 1.5942224  -0.30240284]
 [ 1.5942224  -0.30240284]
 [-0.72286263  0.68809626]
 [-0.72286263  0.68809626]
 [-0.72286263  0.68809626]]
------------------------------------------
[[ 1.5942224   1.5942224  -0.30240284 -0.30240284 -0.30240284]
 [-0.72286263 -0.72286263  0.68809626  0.68809626  0.68809626]]
------------------------------------------


In [34]:
# tile - 축을 따라 배열을 복사해서 쌓는 함수 
print(arr)
print("------------------------------------------")

print(np.tile(arr, 2))
print("------------------------------------------")

print(np.tile(arr, (2,1)))
print("------------------------------------------")

print(np.tile(arr, (3,2)))
print("------------------------------------------")

[[ 1.5942224  -0.30240284]
 [-0.72286263  0.68809626]]
------------------------------------------
[[ 1.5942224  -0.30240284  1.5942224  -0.30240284]
 [-0.72286263  0.68809626 -0.72286263  0.68809626]]
------------------------------------------
[[ 1.5942224  -0.30240284]
 [-0.72286263  0.68809626]
 [ 1.5942224  -0.30240284]
 [-0.72286263  0.68809626]]
------------------------------------------
[[ 1.5942224  -0.30240284  1.5942224  -0.30240284]
 [-0.72286263  0.68809626 -0.72286263  0.68809626]
 [ 1.5942224  -0.30240284  1.5942224  -0.30240284]
 [-0.72286263  0.68809626 -0.72286263  0.68809626]
 [ 1.5942224  -0.30240284  1.5942224  -0.30240284]
 [-0.72286263  0.68809626 -0.72286263  0.68809626]]
------------------------------------------


#### 14.2.5 팬시 색인 : take와 put

In [36]:
arr = np.arange(10) * 100 
inds = [7,1,2,6]
print(arr[inds])
print("------------------------------------------")

print(arr.take(inds))
print("------------------------------------------")

arr.put(inds, 42)

print(arr)
print("------------------------------------------")

arr.put(inds, [40, 41, 42, 43])
print(arr)
print("------------------------------------------")

[700 100 200 600]
------------------------------------------
[700 100 200 600]
------------------------------------------
[  0  42  42 300 400 500  42  42 800 900]
------------------------------------------
[  0  41  42 300 400 500  43  40 800 900]
------------------------------------------


In [37]:
inds = [2,0,2,1]
arr = np.random.randn(2,4)
print(arr)
print("------------------------------------------")

print(arr.take(inds, axis = 1))
print("------------------------------------------")

[[-0.04321937  0.08197603 -0.13384265  0.34275856]
 [-0.4160439   0.69240365  0.08794637  2.17607621]]
------------------------------------------
[[-0.13384265 -0.04321937 -0.13384265  0.08197603]
 [ 0.08794637 -0.4160439   0.08794637  0.69240365]]
------------------------------------------


### 14.3 브로드캐스팅
#### - 브로드캐스팅은 다른 모양의 배열 간의 산술 연산을 어떻게 수행해야 하는 지 설명

In [38]:
arr = np.arange(5)
print(arr)
print("------------------------------------------")

print(arr * 4)
print("------------------------------------------")

[0 1 2 3 4]
------------------------------------------
[ 0  4  8 12 16]
------------------------------------------


In [39]:
arr = np.random.randn(4,3)
print(arr.mean(0))
print("------------------------------------------")

demeaned = arr - arr.mean(0)
print(demeaned)
print("------------------------------------------")

print(demeaned.mean(0))
print("------------------------------------------")

[ 0.76865906  0.28601897 -0.08802448]
------------------------------------------
[[ 1.25827914  0.19544167 -0.66405811]
 [-0.47700695  0.52374461 -0.66725888]
 [-0.43059834 -0.1475114   0.42496312]
 [-0.35067384 -0.57167489  0.90635386]]
------------------------------------------
[2.77555756e-17 0.00000000e+00 0.00000000e+00]
------------------------------------------


In [41]:
print(arr)
print("------------------------------------------")

row_means = arr.mean(1)
print(row_means.shape)
print("------------------------------------------")

print(row_means.reshape((4,1)))
print("------------------------------------------")

demeaned = arr - row_means.reshape((4,1))
print(demeaned)
print("------------------------------------------")

[[ 2.0269382   0.48146064 -0.75208259]
 [ 0.29165211  0.80976358 -0.75528336]
 [ 0.33806072  0.13850757  0.33693864]
 [ 0.41798522 -0.28565592  0.81832938]]
------------------------------------------
(4,)
------------------------------------------
[[0.58543875]
 [0.11537744]
 [0.27116898]
 [0.31688623]]
------------------------------------------
[[ 1.44149945 -0.10397811 -1.33752134]
 [ 0.17627467  0.69438614 -0.8706608 ]
 [ 0.06689174 -0.13266141  0.06576967]
 [ 0.10109899 -0.60254215  0.50144315]]
------------------------------------------


#### 14.3.1 다른 축에 대해 브로드캐스팅하기 

In [42]:
arr - arr.mean(1)

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

#### - 브로드캐스트 차원은 작은 배열에서는 반드시 1이어야 한다. 

In [43]:
print(arr - arr.mean(1).reshape((4,1)))
print("------------------------------------------")

[[ 1.44149945 -0.10397811 -1.33752134]
 [ 0.17627467  0.69438614 -0.8706608 ]
 [ 0.06689174 -0.13266141  0.06576967]
 [ 0.10109899 -0.60254215  0.50144315]]
------------------------------------------


In [46]:
# np.newaxis - 새로운 축을 추가
arr = np.zeros((4,4))
arr_3d = arr[:, np.newaxis, :]
print(arr_3d.shape)
print("------------------------------------------")
arr_1d = np.random.normal(size = 3)
print(arr_1d[:, np.newaxis])
print("------------------------------------------")

print(arr_1d[np.newaxis, :])
print("------------------------------------------")

(4, 1, 4)
------------------------------------------
[[-1.4551624 ]
 [ 0.04917994]
 [-1.44145102]]
------------------------------------------
[[-1.4551624   0.04917994 -1.44145102]]
------------------------------------------


In [48]:
arr = np.random.randn(3,4,5)
depth_means = arr.mean(2)
print(depth_means)
print("------------------------------------------")

print(depth_means.shape)
print("------------------------------------------")

demeaned = arr - depth_means[:, :, np.newaxis]
print(demeaned.mean(2))
print("------------------------------------------")

[[ 0.6466627  -0.17788299 -0.57407968 -0.40658429]
 [ 0.26899498  0.22437657 -0.05666263  0.90330666]
 [ 1.21984644  0.1414309  -0.28598893 -0.09529732]]
------------------------------------------
(3, 4)
------------------------------------------
[[ 2.22044605e-17  2.49800181e-17 -1.11022302e-17  0.00000000e+00]
 [-4.44089210e-17 -6.10622664e-17 -2.22044605e-17 -8.88178420e-17]
 [ 8.88178420e-17  0.00000000e+00  4.44089210e-17  1.66533454e-17]]
------------------------------------------


#### 14.3.2 브로드캐스팅을 이용해서 배열에 값 대입하기

In [50]:
arr = np.zeros((4,3))
arr[:] = 5
print(arr)
print("------------------------------------------")

[[5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]
 [5. 5. 5.]]
------------------------------------------


In [51]:
col = np.array([1.28, -0.42, 0.44, 1.6])
arr[:] = col[:, np.newaxis]
print(arr)
print("------------------------------------------")
arr[:2] = [[-1.37], [0.509]]
print(arr)
print("------------------------------------------")

[[ 1.28  1.28  1.28]
 [-0.42 -0.42 -0.42]
 [ 0.44  0.44  0.44]
 [ 1.6   1.6   1.6 ]]
------------------------------------------
[[-1.37  -1.37  -1.37 ]
 [ 0.509  0.509  0.509]
 [ 0.44   0.44   0.44 ]
 [ 1.6    1.6    1.6  ]]
------------------------------------------


### 14.4 고급 ufunc 사용법
#### 14.4.1 ufunc 인스턴스 메서드

In [52]:
# reduce - 하나의 배열을 받아서 순차적인 이항 연산을 통해 축에 따라 그 값을 집계
arr = np.arange(10)
print(np.add.reduce(arr))
print("------------------------------------------")

print(arr.sum())
print("------------------------------------------")

45
------------------------------------------
45
------------------------------------------


In [53]:
# np.logical_and - 배열의 각 로우에 있는 값이 정렬된 상태인지 검사하는 것을 생각 가능
np.random.seed(12345)
arr = np.random.randn(5,5)
arr[::2].sort(1)

print(arr[:, :-1] < arr[:, 1:])
print("------------------------------------------")

print(np.logical_and.reduce(arr[:, :-1] < arr[:, 1:], axis = 1))
print("------------------------------------------")

[[ True  True  True  True]
 [False  True  True  True]
 [ True  True  True  True]
 [False  True  True False]
 [ True  True  True  True]]
------------------------------------------
[ True False  True False  True]
------------------------------------------


In [54]:
# accumulate - reduce와 관련, 누계를 담고 있는 같은 크기의 배열을 생성
arr = np.arange(15).reshape((3,5))
print(np.add.accumulate(arr, axis = 1))
print("------------------------------------------")

[[ 0  1  3  6 10]
 [ 5 11 18 26 35]
 [10 21 33 46 60]]
------------------------------------------


In [55]:
# outer - 두 배열간의 벡터곱(외적)
arr = np.arange(3).repeat([1,2,2])
print(arr)
print("------------------------------------------")

print(np.multiply.outer(arr, np.arange(5)))
print("------------------------------------------")

[0 1 1 2 2]
------------------------------------------
[[0 0 0 0 0]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 2 4 6 8]
 [0 2 4 6 8]]
------------------------------------------


In [57]:
# outer 결과의 차원의 입력한 차원의 합(붙이기)
x, y = np.random.randn(3,4), np.random.randn(5)
result = np.subtract.outer(x,y)
print(result.shape)
print("------------------------------------------")

(3, 4, 5)
------------------------------------------


In [58]:
# reduceat - 로컬 reduce, 배열의 groupby 연산으로 배열의 슬라이스를 모두 집계
arr = np.arange(10)
print(np.add.reduceat(arr, [0, 5, 8]))
print("------------------------------------------")

arr = np.multiply.outer(np.arange(4), np.arange(5))
print(arr)
print("------------------------------------------")

print(np.add.reduceat(arr, [0,2,4], axis = 1))
print("------------------------------------------")

[10 18 17]
------------------------------------------
[[ 0  0  0  0  0]
 [ 0  1  2  3  4]
 [ 0  2  4  6  8]
 [ 0  3  6  9 12]]
------------------------------------------
[[ 0  0  0]
 [ 1  5  4]
 [ 2 10  8]
 [ 3 15 12]]
------------------------------------------


#### 14.4.2 파이썬으로 사용자 정의 ufunc 작성하기 

In [59]:
# np.frompyfunc - 입력과 출력에 대한 표준과 함께 파이썬 함수를 인자로 취함
def add_elements(x, y):
    return x+y

add_them = np.frompyfunc(add_elements, 2,1)
print(add_them(np.arange(8), np.arange(8)))
print("------------------------------------------")

[0 2 4 6 8 10 12 14]
------------------------------------------


In [60]:
# np.vectorize - 반환 자료형을 지정 가능
add_them = np.vectorize(add_elements, otypes=[np.float64])
print(add_them(np.arange(8),np.arange(8)))
print("------------------------------------------")

[ 0.  2.  4.  6.  8. 10. 12. 14.]
------------------------------------------


In [62]:
arr = np.random.randn(10000)
%timeit add_them(arr, arr)
%timeit np.add(arr, arr)

1.61 ms ± 17.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
2.67 µs ± 11 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


### 14.5 구조화된 배열과 레코드 배열

In [65]:
dtype = [('x', np.float64), ('y', np.int32)]
sarr = np.array([(1.5, 6) ,(np.pi, -2)], dtype = dtype)
print(sarr)
print("------------------------------------------")

print(sarr[0])
print("------------------------------------------")

print(sarr[0]['y'])
print("------------------------------------------")

print(sarr['x'])
print("------------------------------------------")

[(1.5       ,  6) (3.14159265, -2)]
------------------------------------------
(1.5, 6)
------------------------------------------
6
------------------------------------------
[1.5        3.14159265]
------------------------------------------


#### 14.5.1 중첩된 dtype과 다차원 필드

In [67]:
dtype = [('x', np.int64, 3), ('y', np.int32)]
arr = np.zeros(4, dtype = dtype)
print(arr)
print("------------------------------------------")

print(arr[0]['x'])
print("------------------------------------------")

print(arr['x'])
print("------------------------------------------")

[([0, 0, 0], 0) ([0, 0, 0], 0) ([0, 0, 0], 0) ([0, 0, 0], 0)]
------------------------------------------
[0 0 0]
------------------------------------------
[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]
------------------------------------------


In [69]:
dtype = [('x', [('a', 'f8'), ('b', 'f4')]), ('y', np.int32)]
data = np.array([((1,2), 5), ((3,4), 6)], dtype = dtype)
print(data['x'])
print("------------------------------------------")

print(data['y'])
print("------------------------------------------")

print(data['x']['a'])
print("------------------------------------------")

[(1., 2.) (3., 4.)]
------------------------------------------
[5 6]
------------------------------------------
[1. 3.]
------------------------------------------


### 14.6 정렬에 관하여

In [70]:
arr = np.random.randn(6)
arr.sort()
print(arr)
print("------------------------------------------")

[-0.42739443 -0.33745039  0.3929762   0.43289058  1.16020709  1.30886866]
------------------------------------------


In [71]:
arr = np.random.randn(3,5)
print(arr)
print("------------------------------------------")

arr[:, 0].sort()
print(arr)
print("------------------------------------------")

[[-0.93614605  0.44011242 -0.9454195   1.6319019   1.06345899]
 [-0.21675907 -0.10466158 -1.66351666  0.44827317  0.01233147]
 [ 0.68391706  1.2416739   0.87555965 -0.7509476  -0.08045377]]
------------------------------------------
[[-0.93614605  0.44011242 -0.9454195   1.6319019   1.06345899]
 [-0.21675907 -0.10466158 -1.66351666  0.44827317  0.01233147]
 [ 0.68391706  1.2416739   0.87555965 -0.7509476  -0.08045377]]
------------------------------------------


In [74]:
arr = np.random.randn(5)
print(arr)
print("------------------------------------------")

print(np.sort(arr))
print("------------------------------------------")

print(arr)
print("------------------------------------------")

[-2.15053217 -0.08691656 -0.2062042   0.07980982 -0.02580149]
------------------------------------------
[-2.15053217 -0.2062042  -0.08691656 -0.02580149  0.07980982]
------------------------------------------
[-2.15053217 -0.08691656 -0.2062042   0.07980982 -0.02580149]
------------------------------------------


In [75]:
arr = np.random.randn(3,5)
print(arr)
print("------------------------------------------")

arr.sort(axis = 1)
print(arr)
print("------------------------------------------")

[[-0.80598649 -0.00724465 -1.34435045 -0.51022464 -0.86415289]
 [-0.40555763 -0.31348083 -1.09236072 -0.59913543  0.01626134]
 [ 1.06123553 -0.2498113   0.25531359  0.85416301  0.31809652]]
------------------------------------------
[[-1.34435045 -0.86415289 -0.80598649 -0.51022464 -0.00724465]
 [-1.09236072 -0.59913543 -0.40555763 -0.31348083  0.01626134]
 [-0.2498113   0.25531359  0.31809652  0.85416301  1.06123553]]
------------------------------------------


In [76]:
# 내림차순 정렬을 위한 옵셤이 없음 -> 순서가 뒤집어진 배열을 얻으면 됨
print(arr[:, ::-1])
print("------------------------------------------")

[[-0.00724465 -0.51022464 -0.80598649 -0.86415289 -1.34435045]
 [ 0.01626134 -0.31348083 -0.40555763 -0.59913543 -1.09236072]
 [ 1.06123553  0.85416301  0.31809652  0.25531359 -0.2498113 ]]
------------------------------------------


#### 14.6.1 간접 정렬 : argsort와 lexsort

In [78]:
# 배열의 순서대로 index를 정렬
values = np.array([5, 0, 1, 3, 2])
indexer = values.argsort()
print(indexer)
print("------------------------------------------")

print(values[indexer])
print("------------------------------------------")

[1 2 4 3 0]
------------------------------------------
[0 1 2 3 5]
------------------------------------------


In [80]:
arr = np.random.randn(3,5)
arr[0] = values
print(arr)
print("------------------------------------------")

print(arr[:, arr[0].argsort()])
print("------------------------------------------")

[[ 5.          0.          1.          3.          2.        ]
 [ 1.52540853 -0.80985749 -0.85547052  0.0548877  -0.21025812]
 [ 0.82520958 -0.88438408  1.88470075  0.06123328  0.8014105 ]]
------------------------------------------
[[ 0.          1.          2.          3.          5.        ]
 [-0.80985749 -0.85547052 -0.21025812  0.0548877   1.52540853]
 [-0.88438408  1.88470075  0.8014105   0.06123328  0.82520958]]
------------------------------------------


In [82]:
# lexsort - argsort와 유사하지만 다중 키 배열에 대해 간접 사전순 정렬을 수행
first_name = np.array(['bob', 'jane', 'steve', 'bill', 'barbara'])
last_name = np.array(['jones', 'arnold', 'arnold', 'jones', 'walters'])
sorter = np.lexsort((first_name, last_name)) # 나중에 넘저균 배열이 데이털르 정렬하는데 먼저 사용
print(sorter)

print(zip(last_name[sorter], first_name[sorter]))
print("------------------------------------------")

[1 2 3 0 4]
<zip object at 0x7fb302e6df88>
------------------------------------------


#### 14.6.2 대안 정렬 알고리즘

In [83]:
values = np.array(['2:fist', '2:second', '1:first', '1:second', '1:third'])
key = np.array([2,2,1,1,1])
indexer = key.argsort(kind = 'mergesort')
print(indexer)
print("------------------------------------------")

print(values.take(indexer))
print("------------------------------------------")

[2 3 4 0 1]
------------------------------------------
['1:first' '1:second' '1:third' '2:fist' '2:second']
------------------------------------------


#### 14.6.3 배열 일부만 정렬하기

In [85]:
# np.partition /. p.argpartition - k번쨰 작은 원소를 기준으로 배열을 나눔
np.random.seed(12345)
arr = np.random.randn(20)
print(arr)
print("------------------------------------------")

print(np.partition(arr, 3))
print("------------------------------------------")

indices = np.argpartition(arr,3)
print(indices)
print("------------------------------------------")

print(arr.take(indices))
print("------------------------------------------")

[-0.20470766  0.47894334 -0.51943872 -0.5557303   1.96578057  1.39340583
  0.09290788  0.28174615  0.76902257  1.24643474  1.00718936 -1.29622111
  0.27499163  0.22891288  1.35291684  0.88642934 -2.00163731 -0.37184254
  1.66902531 -0.43856974]
------------------------------------------
[-2.00163731 -1.29622111 -0.5557303  -0.51943872 -0.37184254 -0.43856974
 -0.20470766  0.28174615  0.76902257  0.47894334  1.00718936  0.09290788
  0.27499163  0.22891288  1.35291684  0.88642934  1.39340583  1.96578057
  1.66902531  1.24643474]
------------------------------------------
[16 11  3  2 17 19  0  7  8  1 10  6 12 13 14 15  5  4 18  9]
------------------------------------------
[-2.00163731 -1.29622111 -0.5557303  -0.51943872 -0.37184254 -0.43856974
 -0.20470766  0.28174615  0.76902257  0.47894334  1.00718936  0.09290788
  0.27499163  0.22891288  1.35291684  0.88642934  1.39340583  1.96578057
  1.66902531  1.24643474]
------------------------------------------


#### 14.6.4 np.searchsorted : 정렬된 배열에서 원소 찾기
#### - 정렬된 배열에서 이진 탐색을 수행해 새로운 값을 삽입할 때 정렬된 상태를 계속 유지하기 위한 위치를 반환

In [86]:
arr = np.array([0,1,7,12, 15])
print(arr.searchsorted(9))
print("------------------------------------------")

print(arr.searchsorted([0, 8, 11, 16]))
print("------------------------------------------")

arr = np.array([0,0,0,1,1,1,1])
print(arr.searchsorted([0,1]))
print("------------------------------------------")

print(arr.searchsorted([0,1], side = 'right'))
print("------------------------------------------")

3
------------------------------------------
[0 3 3 5]
------------------------------------------
[0 3]
------------------------------------------
[3 7]
------------------------------------------


In [88]:
data = np.floor(np.random.uniform(0, 10000, size = 50))
bins = np.array([0, 100, 1000, 5000 ,10000])
print(data)
print("------------------------------------------")

labels = bins.searchsorted(data)
print(labels)
print("------------------------------------------")

import pandas as pd
print(pd.Series(data).groupby(labels).mean())
print("------------------------------------------")

[2449. 7928. 4951. 9150. 9453. 5332. 2524. 7208. 3674. 4986. 2265. 3535.
 6508. 3129. 7687. 7818. 8524. 9499. 1073. 9107. 3360. 8263. 8981.  427.
 1957. 2945. 6269.  862. 1429. 5158. 6893. 8566. 6473. 5816. 7111. 2524.
 9001. 4422.  205. 9596. 6522. 5132. 6823. 4895. 9264. 5158.  721. 5675.
 6152. 9415.]
------------------------------------------
[3 4 3 4 4 4 3 4 3 3 3 3 4 3 4 4 4 4 3 4 3 4 4 2 3 3 4 2 3 4 4 4 4 4 4 3 4
 3 2 4 4 4 4 3 4 4 2 4 4 4]
------------------------------------------
2     553.750000
3    3132.375000
4    7482.733333
dtype: float64
------------------------------------------


### 14.7 Numba를 이용하여 빠른 Numpy 함수 작성하기
### 14.8 고급 배열 입축력
### 14.9 성능 팁
#### - 생략