In [10]:
import numpy as np
import pandas as pd
import seaborn as sns

# 데이터 정렬

## TOP X(순위) 찾기

nlargest, nsmallest가 성능이 좋다.

In [11]:
df = sns.load_dataset('iris')

In [7]:
df.nlargest(3, 'sepal_length')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica


In [9]:
df.nsmallest(3, ['sepal_width'])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
60,5.0,2.0,3.5,1.0,versicolor
62,6.0,2.2,4.0,1.0,versicolor
68,6.2,2.2,4.5,1.5,versicolor


## 데이터프레임 정렬

참고 : https://towardsdatascience.com/surprising-sorting-tips-for-data-scientists-9c360776d7e

### 한 컬럼 (series) 정렬

#### pandas 기본 방법

일반적으로 inplace를 사용하면 성능이 더 좋다.

In [12]:
df.sort_values(by='sepal_width', inplace=True, ascending=True)

#### numpy 최적화 방법

#### 성능 순서 : (numpy) inplace mergesort > (numpy) copy quicksort > (pandas) inplace quicksort > ...

In [25]:
test_df = pd.DataFrame(np.random.randint(0,10000,1000000), columns=['number'])

In [3]:
%timeit test_df['number'].values.sort(kind='mergesort')

744 µs ± 9.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [4]:
%timeit np.sort(test_df['number'].values)

12.9 ms ± 19 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [5]:
%timeit test_df['number'].sort_values()

31.4 ms ± 192 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### numpy desc 순으로 정렬

np.flip 활용

In [16]:
asc_array = test_df['number'].values
asc_array.sort(kind='mergesort')

In [17]:
desc_array = np.flip( asc_array )

In [19]:
asc_array

array([   0,    0,    0, ..., 9999, 9999, 9999])

In [20]:
desc_array

array([9999, 9999, 9999, ...,    0,    0,    0])

#### index를 얻기 위해서는 np.argsort 활용

In [54]:
test_df.loc[ test_df['number'].values.argsort(kind='mergesort') ]

28.1 ms ± 280 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### 여러 컬럼 정렬

In [16]:
import numpy as np
import pandas as pd
import seaborn as sns

df = sns.load_dataset('iris')

#### pandas 기본 방법

In [None]:
df.sort_values(by=['sepal_length','sepal_width'])

컬럼마다 정렬 기준 다르게

In [None]:
df.sort_values(by=['sepal_length','sepal_width'], ascending=[True, False])

참고 : numpy로는 recarray를 활용해야 한다. recarray는 structured array에 속하고 데이터 프레임의 index를 가질 수 있음

그러나, pandas보다 성능이 느리다. 단, 메모리 사용량은 효율적 ( 간단 테스트로 성능 확인해 봄 )

http://gouthamanbalaraman.com/blog/numpy-vs-pandas-comparison.html