## 5.2 핵심 기능

### 5.2.1 재색인

pandas 객체의 중요한 기능 중 하나는 **reindex**인데, 새로운 색인에 맞도록 객체를 새로 생성한다.

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NAN을 추가한다.

In [3]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우가 있다.
method 옵션을 이용해서 이를 해결할 수 있으며, **ffill 같은 메서드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.**

In [4]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index = [0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [5]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

DataFrame에 대한 reindex는 로우(색인), 컬럼 또는 둘 다 변경 가능하다. 그냥 순선만 전달하면 로우가 재색인된다.

In [6]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index = ['a', 'c', 'd'],
                     columns = ['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [7]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


columns 예약어를 사용해서 재색인 할 수 있다.

In [8]:
states = ['Texas', 'Utah', 'California']

In [9]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 재색인 함수 인자
**index** : 색인으로 사용할 새로운 순서. Index 인스턴스나 다른 순차적인 자료구조가 사용 가능하다.
Index는 복사가 이루어지지 않고 그대로 사용된다.

**method** : 채움 메서드. ffill 은 직전 값을 채워 넣고 bfill은 다음 값을 채워 넣는다.

**fill_value** : 재색인 과정 중에 새롭게 나타나는 비어 있는 데이터를 채우기 위한 값

**limit** : 전/후 보간 시에 사용할 최대 갭 크기(채워 넣을 원소의 수)

**tolerance** : 전/후 보간 시에 사용할 최대 갭 크기(값의 차이)

**level** : Multilndex의 단계(level)에 단순 색인을 맞춘다. 그렇지 않으면 Multilndex의 하위집합에 맞춰춘다.

**copy** : True인 경우 새로운 색인이 이전 색인과 동일하더라도 데이터를 복사한다. False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않는다.

### 5.2.2 하나의 로우나 컬럼 삭제하기

색인 배열, 또는 삭제하려는 로우나 컬럼이 제외된 리스트를 이미 가지고 있다면 로우나 컬럼을 쉽게 삭제할 수 있는데 이 방법은 데이터의 모양을 변경하는 작업이 필요하다.
**drop** 메서드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [10]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [11]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [12]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

DataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있다.

In [13]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns = ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


drop 함수에 인자로 로우 이름을 넘기면 해당 로우(axis 0)의 값을 모두 삭제한다.

In [14]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


컬럼이 값을 삭제할 때는 **axis = 1** 또는 **axis = 'columns'**를 인자로 넘겨주면 된다.

In [15]:
data.drop('two', axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [16]:
data.drop(['two', 'four'], axis = 'columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


drop 함수처럼 Series 나 DataFrame 의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경한다.

In [17]:
obj.drop('c', inplace = True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

**inplace** 옵션을 사용하는 경우 버려지는 값을 모두 삭제하므로 주의해서 사용

### 5.2.3 색인하기, 선택하기, 거르기

Series의 색인 (obj[...])은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다르다.

In [18]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [19]:
obj['b']

1.0

In [20]:
obj[1]

1.0

In [21]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [22]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [23]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [24]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다는 것이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [25]:

obj['b':'c']

b    1.0
c    2.0
dtype: float64

슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 생각하는 대로 동작한다.

In [26]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

색인으로 DataFrame에서 하나 이상의 컬럼 값을 가져올 수 있다.

In [27]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns = ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [28]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [29]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


슬라이싱으로 로우를 선택하거나 불리언 배열로 로우를 선택할 수 있다.

In [30]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [31]:
data[data['three'] >5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값을 선택하는 것이다.

In [32]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [33]:
data[data < 5] = 0

In [34]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**loc와 iloc로 선택하기**

DataFrame의 로우에 대해 라벨로 색인하는 방법으로 특수한 색인 필드인 loc와 iloc 가 있다.
이 방법을 이용하면 NumPy 와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택할 수 있다. **축 이름을 선택할 때는 loc**을, **정수 색인을 선택할 때는 iloc**를 선택한다,

In [35]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

iloc를 이용하면 정수 색인으로도 비슷하게 선택할 수 있다.

In [36]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [37]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [38]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

이 두 함수는 슬라이스도 지원할 뿐더러 단일 라벨이나 라벨 리스트도 지원한다.

In [39]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [40]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [41]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


### 5.2.4 정수 색인

정수 색인으로 pandas 객체를 다루다보면 리스트나 튜플 같은 파이썬 내장 자료 구조에서 색인을 다루는 방법과의 차이점 때문에 실수하게 되는 경우가 있다.

In [42]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

정수 기반의 색인을 사용하지 않는 경우 이런 모호함은 사라진다.

In [43]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

좀 더 세밀하게 사용하고 싶다면 라벨에 대해서는 loc을 사용하고 정수 색인에 대해서는 iloc를 사용한다.

In [44]:
ser[:1]

0    0.0
dtype: float64

In [45]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [46]:
ser.iloc[:1]

0    0.0
dtype: float64

### 5.2.5 산술 연산과 데이터 정렬

pandas에서 가장 중요한 기능 중 하나는 다른 색인을 가지고 있는 객체 간의 산술 연산이다.
객체를 더할 때 맞지 않는 색인이 있다면 두 색인이 통합된다. 데이터베이스를 사용해본 경험이 있다면 색인 라벨에 대한 외부 조인과 유사하게 동작한다고 생각할 수 있다.

In [47]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index = ['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4,3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [48]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [49]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [50]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

서로 겹치는 색인이 없는 경우 데이터는 NA값이 된다. 산술 연산 시 누락되 ㄴ값은 전파된다. DataFrame의 경우 정렬은 로우와 컬럼 모두에 적용된다.

In [51]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns = list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)),columns = list('bd3'),
                   index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

In [52]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [53]:
df2

Unnamed: 0,b,d,3
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


이 두 DataFrame을 더하면 각 DataFrame에 있는 색인과 컬럼이 하나로 합쳐진다.

In [54]:
df1 + df2

Unnamed: 0,3,b,c,d
Colorado,,,,
Ohio,,3.0,,6.0
Oregon,,,,
Texas,,9.0,,12.0
Utah,,,,


'c', 'e'컬럼이 양쪽 DataFrame 객체제 존재하지 않으므로 결과에서는 모두 없는 값으로 나타난다. 로우 역시 마찬가지로 양쪽에 다 존재하지 않는 라벨에 대해서는 없는 값으로 나타난다.
공통되는 컬럼 라벨이나 로우 라벨이 없는 DataFrame을 더하면 결과에 아무것도 나타나지 않는다.

In [55]:
df1 = pd.DataFrame({'A' : [1, 2]})

In [56]:
df2 = pd.DataFrame({'B' : [3, 4]})

In [57]:
df1

Unnamed: 0,A
0,1
1,2


In [58]:
df2

Unnamed: 0,B
0,3
1,4


In [59]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


**산술 연산 메서드에 채워 넣을 값 지정하기**

서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값(0 같은)으로 지정하고 싶을 때

In [60]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns = list('abcd'))

In [61]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns = list('abcde'))

In [62]:
df2.loc[1, 'b' ] = np.nan

In [63]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [64]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


이 둘을 더하면 겹치지 않는 부분은 NA 값이 된다.

In [65]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


df1에 add 메서드를 사용하고, df2와 fill_value 값을 인자로 전달한다.

In [66]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [67]:
1/df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [68]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Series나 DataFrame을 재색인할 때도 fill_value 를 지정할 수 있다.

In [69]:
df1.reindex(columns = df2.columns, fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


**산술 연산 메서드**

**add, radd** : 덧셈(+)을 위한 메서드

**sub, rsub** : 뺄셈(-)을 위한 메서드

**div, rdiv** : 나눗셈(/)을 위한 메서드

**floordiv, rfloordiv** : 소수점 내림(//)을 위한 메서드

**mul, rmul** : 곱셈(*)을 위한 메서드

**pow, rpow** : 멱승(**)을 위한 메서드

**DataFrame과 Series간의 연산**

다른 차원의 NumPy 배열과의 연산처럼 DataFrame과 Series 간의 연산도 잘 정의되어 있다.

In [70]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [71]:
arr[0]

array([0., 1., 2., 3.])

**브로드캐스팅**

In [72]:
# 계산은 각 로우에 대해 한 번씩만 수행한다.
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [73]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns = list('bde'),
                     index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

In [74]:
series = frame.iloc[0]

In [75]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [76]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

기본적으로 DataFrame과 Series 간의 산술 연산은 Series의 색인을 DataFrame 의 컬럼에 맞추고 아래 로우로 전파한다.

In [77]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


색인값을 DataFrame의 컬럼이나 Series의 색인에서 찾을 수 있다면 그 객체는 형식을 맞추기 위해 재색인된다.

In [79]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [81]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [82]:
series2

b    0
e    1
f    2
dtype: int64

In [80]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


만약 각 로우에 대해 연산을 수행하고 싶다면 산술 연산 메서드를 사용하면 된다.

In [84]:
series3 = frame['d']

In [85]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [86]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [87]:
frame.sub(series3, axis ='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


인자로 넘기는 axis 값은 **연산을 적용할 축 번호**다. axis = 'index'나 axis = 0 은 DataFrame의 로우를 따라 연산을 수행하라는 의미

### 5.2.6 함수 적용과 매핑

pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다.

In [89]:
frame = pd.DataFrame(np.random.randn(4, 3), columns = list('bde'),
                     index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.203871,1.078202,1.870602
Ohio,-1.273858,1.352004,0.253026
Texas,-0.086214,1.439689,0.181709
Oregon,-0.292293,1.220463,-0.923285


In [90]:
# abs : 절대값
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.203871,1.078202,1.870602
Ohio,1.273858,1.352004,0.253026
Texas,0.086214,1.439689,0.181709
Oregon,0.292293,1.220463,0.923285


자주 사용되는 또 다른 연산은 각 컬럼이나 로우의 1차원 배열에 함수를 적용하는 것이다. DataFrame의 apply 메서드를 이용해 수행할 수 있다.

In [91]:
f = lambda x : x.max() - x.min()

In [92]:
frame.apply(f)

b    1.187644
d    0.361487
e    2.793887
dtype: float64

함수 f는 Series의 최댓값 최솟값의 차이를 계산하는 함수다. frame의 각 컬럼에 대해 한 번만 수행되며 결괏값은 계산을 적용한 컬럼을 색인으로 하는 Series를 반환한다.

apply 함수에 axis = 'columns' 인자를 넘기면 각 로우에 대해 한 번씩만 수행한다.


In [93]:
frame.apply(f, axis = 'columns')

Utah      2.074473
Ohio      2.625862
Texas     1.525903
Oregon    2.143748
dtype: float64

배열에 대한 일반적인 통계 (sum이나 mean 같은)는 DataFrame의 메서드로존재하므로 apply 메서드를 사용할 필요 없다.

apply 메서드에 전달된 함수는 스칼라값 반환할 필요가 없다. 여러 값을 가진 Series를 변환해도 된다.

In [94]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [95]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.273858,1.078202,-0.923285
max,-0.086214,1.439689,1.870602


배열의 각 원소에 적용되는 파이썬의 함수를 사용할 수도 있다. frame 객체에서 실숫값을 문자열 포맥으로 변환하고 싶다면 applymap을 이용한다.

In [96]:
format = lambda x : '%.2f' % x

In [97]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.2,1.08,1.87
Ohio,-1.27,1.35,0.25
Texas,-0.09,1.44,0.18
Oregon,-0.29,1.22,-0.92


이 메서드의 이름이 applymap인 이유는 Series는 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 가지고 있기 때문이다,

In [98]:
frame['e'].map(format)

Utah       1.87
Ohio       0.25
Texas      0.18
Oregon    -0.92
Name: e, dtype: object

### 5.2.7 정렬과 순위

어떤 기준에 근거해서 데이터를 정렬하는 것 역시 중요한 명령이다. 로우나 컬럼의 색인을 알파벳순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용하면 된다.

In [99]:
obj = pd.Series(range(4), index = ['d', 'a', 'b', 'c'])

In [100]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [102]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index = ['three', 'one'],
                     columns = ['d', 'a', 'b', 'c'])
frame.sort_index() # 로우 오름차순

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [103]:
frame.sort_index(axis=1) # 컬럼 오름차순

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


데이터는 기본적으로 오름차순으로 정렬되고 내림차순으로 정렬할 수도 있다.

In [104]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용하면 된다.

In [105]:
obj = pd.Series([4, 7, -3, 2])

In [106]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

정렬할 때 비어 있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.

In [107]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [108]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [110]:
frame = pd.DataFrame({'b' : [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


DataFrame에서 하나 이상의 컬럼에 있는 값으로 정렬을 하는 경우 sort_values 함수의 by 옵션에 하나 이상의 컬럼 이름을 넘기면 된다.

In [111]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


여러 개의 컬럼을 정렬하려면 컬럼 이름이 담긴 리스트를 전달하면 된다.

In [112]:
frame.sort_values(by = ['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


**순위**는 정렬과 거의 흡사한데, 1부터 배열의 유효한 데이터 개수까지 순서를 매긴다. 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [113]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [114]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.

In [115]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

여기서 0번째 2번째 항목에 대해 평균 순위인 6.5를 적용하는 대신 먼저 출현한 순서대로 6과 7을 적용했다.

내림차순으로 순위를 매길 수도 있다.

In [116]:
# 동률인 경우 그룹 내에서 높은 순위를 적용한다.
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

사용 가능한 동률 처리 메서드를 나열해두었다.

DataFrame에서는 로우나 컬럼에 대해 순위를 정할 수 있다.

In [122]:
frame = pd.DataFrame({'b' : [4.3, 7,-3, 2], 'a' : [0, 1, 0, 1],
                      'c' : [-2, 5,8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [124]:
frame.rank(axis = 'columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


**순위의 동률을 처리하는 메서드**

**average** : 기본값, 같은 값을 가지는 항목들의 평균값을 순위로 삼는다.

**min** : 같은 값을 가지는 그룹을 낮은 순위로 매긴다.

**max** : 같은 값을 가지는 그룹을 높은 순위로 매긴다.

**first** : 데이터 내의 위치에 따라 순위를 매긴다.

**dense** : method = 'min'과 같지만 같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가시킨다.

### 5.2.8 중복 색인

지금까지 살펴본 모든 예제는 축 이름(색인값)이 유일한 경우밖에 없었다. pandas의 많은 함수(reindex 같은)에서 색인값은 유일해야 하지만 의무적이지는 않다. 중복된 색인값을 가지는 Series 객체를 살펴보자.

In [126]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

색인의 is_nuique 속성은 해당 값이 유일한지 아닌지 알려준다.


In [127]:
obj.index.is_unique

False

중복되는 색인값이 있다면 색인을 이용해서 데이터 접근했을 때 다르게 동작한다. 중복되는 색인값이 없을 때는 색인을 이용해서 데이터에 접근하면 스칼라값을 반환하지만 중복되는 색인값이 있을 때는 하나의 Series 객체를 반환한다.

In [129]:
obj['a']

a    0
a    1
dtype: int64

In [130]:
obj['c']

4

라벨이 반복되는지 여부에 따라 색인을 이용해서 선택한 결과가 다를 수 있기 때문에 보드를 좀 더 복잡하게 만들 수 있다.

DataFrame에서 로우를 선택하는 것도 동일하다.

In [132]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,-0.661675,0.606792,-0.51987
a,-1.104857,1.274818,-0.280222
b,-1.517243,0.210417,1.670538
b,-0.483366,0.444345,1.177967


In [133]:
df.loc['b']

Unnamed: 0,0,1,2
b,-1.517243,0.210417,1.670538
b,-0.483366,0.444345,1.177967
