# 핵심 기능

In [1]:
import numpy as np
import pandas as pd

## 재색인
판다스 객체의 중요한 기능 중 하나는 reindex 인데, 새로운 색인에 적합하도록 객체를 새로 생성하는 기능이다.

In [2]:
obj = pd.Series([4.5,7.2,-5.3,3.6],index=["d","b","a","c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

Series 객체에 대해서 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 비어있는 값을 새로 추가한다.

In [4]:
obj2 = obj.reindex(["a","b","c","d","e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

시계열 같은 순차적인 데이터를 재색인할 때, 값을 보간하거나 채워 넣어야 할 경우가 있다.
method 옵션을 이용해서 이를 해결할 수 있으며 ffill 같은 메서드를 이용해 누락된 값을 직전의 값으로 채워 넣을 수 있다.

In [5]:
obj3 = pd.Series(["blue","purple","yellow"],index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [7]:
obj3.reindex(np.arange(6),method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

DataFrame에 대한 reindex는 행(색인), 열 또는 둘 다 변경 가능하다. 그냥 순서만 전달하면 행이 재색인 된다.

In [9]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=["a","c","d"],columns=["Ohio","Texas","California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [10]:
frame2 = frame.reindex(index=["a","b","c","d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


열은 columns 예약어를 사용해 재색인한다.

In [11]:
states = ["Texas","Utah","California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Ohio 는 states에 포함되어 있지 않으므로 결과에서 해당 열은 제외된다.

특정 축을 재색인하는 또 다른 방법은 새로운 축 레이블을 인수로 넘긴 다음 axis키워드를 사용해 재색인할 축을 지정하는것이다.

In [15]:
frame.reindex(states,axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8
