# 12. 고급 NumPy
> ## 정렬에 관하여

___
- ndarray의 sort 메서드는 새로운 배열 생성 x
- 직접 해당 배열의 내용을 정렬

In [48]:
import numpy as np
import pandas as pd
from numpy.random import randn

In [2]:
arr = randn(6)
arr

array([-1.25603711,  1.08934068,  0.79152887, -1.57304739, -1.20354501,
       -1.07933544])

In [4]:
arr.sort()

In [5]:
arr

array([-1.57304739, -1.25603711, -1.20354501, -1.07933544,  0.79152887,
        1.08934068])

- 원본 배열의 값이 **변경됨**

In [6]:
arr = randn(3,5)
arr

array([[ 0.54963729,  1.04341177, -0.08590491,  1.32057428, -1.57202307],
       [ 0.07339695,  0.55116429, -0.31538753, -1.05130186,  2.26360142],
       [-0.27067122, -0.86807499, -1.75231673, -1.70186291, -0.61547113]])

In [7]:
arr[:, 0].sort()
arr

array([[-0.27067122,  1.04341177, -0.08590491,  1.32057428, -1.57202307],
       [ 0.07339695,  0.55116429, -0.31538753, -1.05130186,  2.26360142],
       [ 0.54963729, -0.86807499, -1.75231673, -1.70186291, -0.61547113]])

- 첫번째 칼럼 값만도 정렬 가능

In [11]:
pd.DataFrame(arr).sort()

AttributeError: 'DataFrame' object has no attribute 'sort'

- DataFrame은 sort 불가능

In [12]:
arr = randn(5)
arr

array([-0.02973827, -2.55495013, -0.44664097, -0.18802711,  2.26268369])

In [13]:
np.sort(arr)

array([-2.55495013, -0.44664097, -0.18802711, -0.02973827,  2.26268369])

In [14]:
arr

array([-0.02973827, -2.55495013, -0.44664097, -0.18802711,  2.26268369])

- 객체의 메서드 대신 np.sort(객체명) 사용 시 배열의 복사본 생성

In [15]:
arr = randn(3, 5)
arr

array([[ 0.79947578,  2.36774265, -0.31430503, -0.95483901,  1.44538125],
       [-1.14823286, -0.29770159, -0.91977956, -0.0655587 ,  0.99652046],
       [-0.58585566,  0.98949924, -0.99306077,  0.6434876 ,  1.16765174]])

In [16]:
arr.sort(axis = 1)
arr

array([[-0.95483901, -0.31430503,  0.79947578,  1.44538125,  2.36774265],
       [-1.14823286, -0.91977956, -0.29770159, -0.0655587 ,  0.99652046],
       [-0.99306077, -0.58585566,  0.6434876 ,  0.98949924,  1.16765174]])

In [18]:
arr.sort(axis = 0)
arr

array([[-1.14823286, -0.91977956, -0.29770159, -0.0655587 ,  0.99652046],
       [-0.99306077, -0.58585566,  0.6434876 ,  0.98949924,  1.16765174],
       [-0.95483901, -0.31430503,  0.79947578,  1.44538125,  2.36774265]])

- axis 명령어로 행 또는 열 기준 정렬 가능

In [21]:
arr[::-1]

array([[-0.95483901, -0.31430503,  0.79947578,  1.44538125,  2.36774265],
       [-0.99306077, -0.58585566,  0.6434876 ,  0.98949924,  1.16765174],
       [-1.14823286, -0.91977956, -0.29770159, -0.0655587 ,  0.99652046]])

- desc 기능이 없음
- ::-1로 desc 옵션 대체 가능
___
## 1. 간접 정렬: argsort와 lexsort

In [22]:
values = np.array([5, 0, 1, 3, 2])
indexer = values.argsort()
indexer

array([1, 2, 4, 3, 0], dtype=int64)

In [24]:
values[indexer]

array([0, 1, 2, 3, 5])

- argsort는 순서, 즉 색인 값을 반환

In [26]:
arr = randn(3,5)
arr[0] = values
arr

array([[ 5.        ,  0.        ,  1.        ,  3.        ,  2.        ],
       [ 1.18414021, -1.16767027, -0.83960021, -1.21148522,  0.86018874],
       [-0.39889673, -0.17196223, -1.94584301, -0.93165609,  0.28525394]])

In [27]:
arr[:, arr[0].argsort()]

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  5.        ],
       [-1.16767027, -0.83960021,  0.86018874, -1.21148522,  1.18414021],
       [-0.17196223, -1.94584301,  0.28525394, -0.93165609, -0.39889673]])

- argsort()를 사용해 첫번째 로우 기준으로 재정렬

In [28]:
first_name = np.array(['Bob', 'Jane', 'Steve', 'Bill', 'Barbara'])
last_name = np.array(['Jones', 'Arnold', 'Arnold', 'Jones', 'Walters'])
sorter = np.lexsort((first_name, last_name))

In [29]:
list(zip(last_name[sorter], first_name[sorter]))

[('Arnold', 'Jane'),
 ('Arnold', 'Steve'),
 ('Jones', 'Bill'),
 ('Jones', 'Bob'),
 ('Walters', 'Barbara')]

In [30]:
sorter

array([1, 2, 3, 0, 4], dtype=int64)

- lexsort는 계층 순서대로 정렬 시행
- last_name 정렬 후, 동일 계층 하에서 first_name 정렬
___
## 2. 다른 정렬 알고리즘

In [32]:
values = np.array(['2:first', '2:second', '1:first', '1:second', '1:third'])
key = np.array([2, 2, 1, 1, 1])
indexer = key.argsort(kind = 'mergesort')
indexer

array([2, 3, 4, 0, 1], dtype=int64)

In [33]:
values.take(indexer)

array(['1:first', '1:second', '1:third', '2:first', '2:second'],
      dtype='<U8')

- 견고한 정렬 알고리즘은 동일한 원소의 상대적인 위치를 그대로 둠
___
## 3. numpy.searchsorted: 정렬된 배열에서 원소 찾기

In [35]:
arr = np.array([0, 1, 7, 12, 15])
arr.searchsorted(9)

3

- searchsorted()를 통해 추가하려는 값이 기존 배열의 어느 위치에 자리잡게 될 지 알려 줌
- [0, 1, 7, **9**, 12, 15]

In [36]:
arr.searchsorted([0, 8, 11, 16])

array([0, 3, 3, 5], dtype=int64)

In [37]:
arr.searchsorted([0, 8, 11, 16], side = 'right')

array([1, 3, 3, 5], dtype=int64)

- side 옵션으로 동일 값 발생 시 어디에 위치할 지 지정

In [44]:
data = np.floor(np.random.uniform(0, 10000, size = 50))
bins = np.array([0, 100, 1000, 5000, 10000])
data

array([1381., 5905., 8753., 5020., 6441., 6135., 7766., 5093., 1801.,
       8544., 2914.,  112., 9591., 9109., 7289., 9836., 2593., 4409.,
       5140., 2593., 6641., 3954., 5630., 6712., 9238., 5147., 1746.,
       9009., 3408., 1291., 8771., 1709., 3025., 9880.,  173., 2291.,
       4258., 9182., 2514., 9859.,  704., 4971., 8075.,  978., 7579.,
       5279., 2909., 9688., 5686., 3679.])

In [45]:
labels = bins.searchsorted(data)
labels

array([3, 4, 4, 4, 4, 4, 4, 4, 3, 4, 3, 2, 4, 4, 4, 4, 3, 3, 4, 3, 4, 3,
       4, 4, 4, 4, 3, 4, 3, 3, 4, 3, 3, 4, 2, 3, 3, 4, 3, 4, 2, 3, 4, 2,
       4, 4, 3, 4, 4, 3], dtype=int64)

- bins 배열에 data 배열을 추가할 때 위치

In [46]:
pd.Series(data).groupby(labels).mean()

2     491.750000
3    2858.111111
4    7535.642857
dtype: float64

In [47]:
np.digitize(data, bins)

array([3, 4, 4, 4, 4, 4, 4, 4, 3, 4, 3, 2, 4, 4, 4, 4, 3, 3, 4, 3, 4, 3,
       4, 4, 4, 4, 3, 4, 3, 3, 4, 3, 3, 4, 2, 3, 3, 4, 3, 4, 2, 3, 4, 2,
       4, 4, 3, 4, 4, 3], dtype=int64)

- searchsorted와 groupby를 혼합해 구간별 특성값 산출 가능
- np.digitize 함수 사용 가능