# 재색인

Pandas 객체의 중요한 기능 중 하나는 reindex인데, 새로운 색인에 맞도록 객체를 새로 생성한다.

In [13]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [14]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [15]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN을 추가한다.

In [16]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [17]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우가 있다. `method` 옵션을 이용해서 이를 해결할 수 있으며, `ffill` 같은 메소드를 이용해서 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [18]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [19]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [20]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

DataFrame에 대한 reindex는 로우(색인), 컬럼 또는 둘 다 변경 가능하다. 그냥 순서만 전달하면 로우가 재색인된다.

In [25]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Seoul', 'Suwon', 'Busan'])

In [26]:
frame

Unnamed: 0,Seoul,Suwon,Busan
a,0,1,2
c,3,4,5
d,6,7,8


In [27]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [28]:
frame2

Unnamed: 0,Seoul,Suwon,Busan
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


컬럼은 columns 예약어를 사용해서 재색인할 수 있다.

In [29]:
states = ['Seoul', 'Daegu', 'Busan']

In [30]:
frame.reindex(columns=states)

Unnamed: 0,Seoul,Daegu,Busan
a,0,,2
c,3,,5
d,6,,8


# 하나의 로우나 컬럼 삭제하기

색인 배열, 또는 삭제하려는 로우나 컬럼이 제외된 리스트를 이미 가지고 있다면 로우나 컬럼을 쉽게 삭제할 수 있는데 이 방법은 데이터의 모양을 변경하는 작업이 필요하다. `drop` 매소드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [31]:
obj = pd.Series(np.arange(5, ), index=['a', 'b', 'c', 'd', 'e'])

In [32]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [33]:
new_obj = obj.drop('c')

In [34]:
new_obj

a    0
b    1
d    3
e    4
dtype: int64

In [35]:
obj.drop(['d', 'c'])

a    0
b    1
e    4
dtype: int64

DataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있다.

In [36]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Seoul', 'Suwon', 'Paju', 'Busan'],
                    columns=['one', 'two', 'three', 'four'])

In [37]:
data

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Suwon,4,5,6,7
Paju,8,9,10,11
Busan,12,13,14,15


drop 함수에 인자로 로우 이름을 넘기면 해당 로우(axis 0)의 값을 모두 삭제한다.

In [38]:
data.drop(['Seoul', 'Paju'])

Unnamed: 0,one,two,three,four
Suwon,4,5,6,7
Busan,12,13,14,15


컬럼의 값을 삭제할 때는 axis=1 또는 axis='columns' 를 인자로 넘겨주면 된다.

In [39]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Seoul,0,2,3
Suwon,4,6,7
Paju,8,10,11
Busan,12,14,15


In [40]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Seoul,0,2
Suwon,4,6
Paju,8,10
Busan,12,14


drop 함수처럼 Series나 DataFrame 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경한다.

In [41]:
obj.drop('c', inplace=True)

In [42]:
obj

a    0
b    1
d    3
e    4
dtype: int64

# 색인하기, 선택하기, 거르기

Series의 색인은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다르다.

In [43]:
obj = pd.Series(np.arange(4, ), index=['a', 'b', 'c', 'd'])

In [44]:
obj

a    0
b    1
c    2
d    3
dtype: int64

In [45]:
obj['b']

1

In [46]:
obj[1]

1

In [47]:
obj[2:4]

c    2
d    3
dtype: int64

In [48]:
obj[['b', 'a', 'd']]

b    1
a    0
d    3
dtype: int64

In [49]:
obj[[1, 3]]

b    1
d    3
dtype: int64

In [50]:
obj[obj < 2]

a    0
b    1
dtype: int64

라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함한다는 것이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [51]:
obj['b':'c']

b    1
c    2
dtype: int64

슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 생각하는 대로 동작한다.

In [52]:
obj['b':'c'] = 5

In [53]:
obj

a    0
b    5
c    5
d    3
dtype: int64

색인으로 DataFrame에서 하나 이상의 컬럼 값을 가져올 수 있다.

In [55]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Seoul', 'Suwon', 'Paju', 'Busan'],
                    columns=['one', 'two', 'three', 'four'])

In [56]:
data

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Suwon,4,5,6,7
Paju,8,9,10,11
Busan,12,13,14,15


In [57]:
data['two']

Seoul     1
Suwon     5
Paju      9
Busan    13
Name: two, dtype: int64

In [58]:
data[['three', 'four']]

Unnamed: 0,three,four
Seoul,2,3
Suwon,6,7
Paju,10,11
Busan,14,15


슬라이싱으로 로우를 선택하거나 Boolean 배열로 로우를 선택할 수 있다.

In [59]:
data[:2]

Unnamed: 0,one,two,three,four
Seoul,0,1,2,3
Suwon,4,5,6,7


In [60]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Suwon,4,5,6,7
Paju,8,9,10,11
Busan,12,13,14,15


## loc과 iloc으로 선택하기

DataFrame의 로우에 대해 라벨로 색인하는 방법으로 특수한 색인 필드인 loc과 iloc가 있다. 축 이름을 선택할 때는 `loc`을, 정수 색인으로 선택할 때는 `iloc`을 사용한다.

In [61]:
data.loc['Suwon', ['two', 'three']]

two      5
three    6
Name: Suwon, dtype: int64

In [62]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Paju, dtype: int64

In [63]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Suwon,7,4,5
Paju,11,8,9


두 함수는 슬라이스도 지원할 뿐더러 단일 라벨이나 라벨 리스트도 지원한다.

In [64]:
data.loc[:'Suwon', 'two']

Seoul    1
Suwon    5
Name: two, dtype: int64

# 산술 연산과 데이터 정렬

pandas에서 가장 중요한 기능 중 하나는 다른 색인을 가지고 있는 객체 간의 산술 연산이다. 객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합된다. 데이터베이스를 사용해본 경험이 있다면 색인 라벨에 대한 외부 조인과 유사하게 동작한다고 생각할 수 있다.

In [66]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [67]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [68]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [69]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [70]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

서로 겹치는 색인이 없는 경우 데이터는 NA값이 된다. 산술 연산 시 누락된 값은 전파된다. DataFrame의 경우 정렬은 로우와 컬럼 모두에 적용된다.

In [71]:
df1 = pd.DataFrame(np.arange(9, ).reshape((3, 3)), columns=list('bcd'),
                   index=['Seoul', 'Suwon', 'Daegu'])

In [72]:
df2 = pd.DataFrame(np.arange(12, ).reshape((4, 3)), columns=list('dfe'),
                   index=['Busan', 'Seoul', 'Suwon', 'Paju'])

In [73]:
df1

Unnamed: 0,b,c,d
Seoul,0,1,2
Suwon,3,4,5
Daegu,6,7,8


In [74]:
df2

Unnamed: 0,d,f,e
Busan,0,1,2
Seoul,3,4,5
Suwon,6,7,8
Paju,9,10,11


In [75]:
df1 + df2

Unnamed: 0,b,c,d,e,f
Busan,,,,,
Daegu,,,,,
Paju,,,,,
Seoul,,,5.0,,
Suwon,,,11.0,,


### 산술 연산 메서드에 채워 넣을 값 지정하기

서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값(0 같은)으로 지정하고 싶을 때는 다음과 같이 할 수 있다.

In [76]:
df1 = pd.DataFrame(np.arange(12, ).reshape((3, 4)),
                   columns=list('abcd'))

In [77]:
df2 = pd.DataFrame(np.arange(20, ).reshape((4, 5)),
                   columns=list('abcde'))

In [78]:
df2.loc[1, 'b'] = np.nan

In [79]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [80]:
df2

Unnamed: 0,a,b,c,d,e
0,0,1.0,2,3,4
1,5,,7,8,9
2,10,11.0,12,13,14
3,15,16.0,17,18,19


위 둘을 더하면 겹치지 않는 부분은 NA 값이 된다.

In [81]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


df1에 `add` 메소드를 사용하고, df2와 fill_value 값을 인자로 전달한다.

In [82]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


# 정렬과 순위

로우나 컬럼의 색인을 알파벳순으로 정렬하려면 정렬된 새로운 객체를 반환하는 `sort_index` 메소드를 사용하면 된다.

In [83]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [84]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있다.

In [85]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])

In [86]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [88]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Series 객체를 값에 따라 정렬하고 싶다면 `sort_value` 메소드를 사용하면 된다.

In [89]:
obj = pd.Series([4, 7, -2, 2])

In [91]:
obj.sort_values()

2   -2
3    2
0    4
1    7
dtype: int64

정렬할 때 비어 있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.

In [92]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [93]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

DataFrame에서 하나 이상의 컬럼에 있는 값으로 정렬하는 경우 sort_values 함수의 by 옵션에 하나 이상의 컬럼 이름을 넘기면 된다.

In [94]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [95]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [96]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [97]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1
