In [1]:
import numpy as np
import pandas as pd

### 정렬과 순위

**sort_index**를 사용하여 로우나 컬럼의 색인을 알파벳 순으로 정렬한다.

In [2]:
obj = pd.Series(range(4), index = ['d','b','a','c'])

obj.sort_index()

a    2
b    1
c    3
d    0
dtype: int64

DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [3]:
frame = pd.DataFrame(np.arange(8).reshape(2,4),
                    index = ['three','one'],
                     columns = ['d','a','b','c'])

frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [4]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


데이터는 기본적으로 **오름차순**으로 정렬되고 내림차순으로 정렬할 수도 있다.

In [5]:
frame.sort_index(axis = 1, ascending = False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Series 객체를 값에 따라 정렬하고 싶다면 **sort_values** 메소드를 사용하면 된다.

In [6]:
obj = pd.Series([1,-3,7,2])
obj

0    1
1   -3
2    7
3    2
dtype: int64

In [7]:
obj.sort_values()

1   -3
0    1
3    2
2    7
dtype: int64

정렬할 때 비어 있는 값은 기본적으로 객체 맨끝에 위치.

In [8]:
obj = pd.Series([np.nan,1,7,np.nan,-3])

obj

0    NaN
1    1.0
2    7.0
3    NaN
4   -3.0
dtype: float64

In [9]:
obj.sort_values()

4   -3.0
1    1.0
2    7.0
0    NaN
3    NaN
dtype: float64

DataFrame에서 하나 이상의 컬럼에 있는 값으로 정렬을 하는 경우 sort_values 함수의 by 옵션에 하나 이상의 컬럼 이름을 넘기면 된다.

In [10]:
frame = pd.DataFrame({'b' : [1,4,2,-1], 'a' : [3,1,-5,2] })

In [11]:
frame

Unnamed: 0,b,a
0,1,3
1,4,1
2,2,-5
3,-1,2


In [12]:
frame.sort_values(by = 'b')

Unnamed: 0,b,a
3,-1,2
0,1,3
2,2,-5
1,4,1


여러 개의 컬럼 정렬하려면 컬럼 이름이 담긴 리스트를 전달한다.

In [13]:
frame.sort_values(by = ['b','a'])

Unnamed: 0,b,a
3,-1,2
0,1,3
2,2,-5
1,4,1


**순위**는 1부터 배열의 유효한 데이터 개수까지 순서를 매기며 기본적으로 **rank** 메소드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [14]:
obj = pd.Series([1,4,-5,5,3,2,-3])

obj

0    1
1    4
2   -5
3    5
4    3
5    2
6   -3
dtype: int64

In [15]:
obj.rank()

0    3.0
1    6.0
2    1.0
3    7.0
4    5.0
5    4.0
6    2.0
dtype: float64

데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.

In [16]:
obj.rank(method = 'first')

0    3.0
1    6.0
2    1.0
3    7.0
4    5.0
5    4.0
6    2.0
dtype: float64

In [17]:
# 동률일 경우 그룹 내에서 높은 순위를 적용한다.

obj.rank(ascending = False, method = 'max')

0    5.0
1    2.0
2    7.0
3    1.0
4    3.0
5    4.0
6    6.0
dtype: float64

DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수 있다.

In [18]:
frame = pd.DataFrame({'b': [4.3 , 7, -3 , 2], 'a' : [0,1,0,1],
                     'c' : [-1,-2, 8,-2.5]})

frame

Unnamed: 0,b,a,c
0,4.3,0,-1.0
1,7.0,1,-2.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [20]:
frame.rank(axis = 'columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,2.0,1.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 중복 색인

In [21]:
obj = pd.Series(range(5), index = ['a','a','b','b','c'])

obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

is_unique 속성은 해당값이 유일한지 아닌지 알려준다.

In [22]:
obj.index.is_unique

False

중복되는 색인값이 없을때는 색인을 이용해서 접근하면 **스칼라값을 반환**하지만 중복되는 색인값이 있을 때는 **하나의 Series 객체**를 반환한다.

In [23]:
obj['a']

a    0
a    1
dtype: int64

In [24]:
obj['c']

4

DataFrame에서 로우를 선택하는 것도 동일하다.

In [25]:
df = pd.DataFrame(np.random.randn(4,3),index = ['a','a','b','b'])

df

Unnamed: 0,0,1,2
a,0.740634,0.70103,-0.881489
a,0.002556,0.85619,0.030168
b,-0.363372,0.887173,1.252138
b,1.334321,1.114651,0.010767


In [26]:
df.loc['b']

Unnamed: 0,0,1,2
b,-0.363372,0.887173,1.252138
b,1.334321,1.114651,0.010767


## 기술 통계 계산과 요약

pandas 객체는 일버