- 색인(index) 객체
- pandas의 색인 객체는 표형식의 데이터에서 각 행과 열에 대한 헤더와 다른 메타데이터(축의 이름)를 저장하는 객체
- Series나 DataFrame객체를 생성할 때 생성할 때 사용되는 배열이나 또는 순차적인 이름은 내부적으로 색인으로 변환된다.

In [2]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [4]:
obj = Series(range(3), index = ['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [5]:
idx = obj.index
idx

Index(['a', 'b', 'c'], dtype='object')

In [6]:
idx[1]

'b'

In [7]:
idx[1:]

Index(['b', 'c'], dtype='object')

In [11]:
# idx[1] = 'd' 색인 객체는 변경할 수 없다
index2 = pd.Index(np.arange(3))
index2

Int64Index([0, 1, 2], dtype='int64')

- 재색인(reindex) : 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [12]:
obj = Series([2.3, 4.3, -4.1, 3.5], index = ['d','b','a','c'])
obj

d    2.3
b    4.3
a   -4.1
c    3.5
dtype: float64

In [14]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -4.1
b    4.3
c    3.5
d    2.3
e    NaN
dtype: float64

In [15]:
obj3 = obj.reindex(['a', 'b', 'c', 'c', 'e', 'f'], fill_value = 0.0)
obj3

a   -4.1
b    4.3
c    3.5
c    3.5
e    0.0
f    0.0
dtype: float64

In [31]:
obj4 = Series(['blue', 'red', 'yellow'], index = [0, 2, 4])
obj4

0      blue
2       red
4    yellow
dtype: object

In [32]:
obj4.reindex(range(6))

0      blue
1       NaN
2       red
3       NaN
4    yellow
5       NaN
dtype: object

In [33]:
obj5 = obj4.reindex(range(6), method = 'ffill')
obj5

0      blue
1      blue
2       red
3       red
4    yellow
5    yellow
dtype: object

In [38]:
df = DataFrame(np.arange(9).reshape(3,3),
               index=['a', 'b', 'd'],
               columns = ['x', 'y', 'z'])
df

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
d,6,7,8


In [39]:
df2 = df.reindex(['a', 'b', 'c', 'd'])
df2

Unnamed: 0,x,y,z
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,,,
d,6.0,7.0,8.0


In [41]:
col = ['x', 'y', 'w', 'z']
df3 = df.reindex(index = ['a', 'b', 'c', 'd'],
                 method = 'ffill',
                 columns = col)
df3 # DataFrame에서 보간은 row에 대해서만 이루어진다.

Unnamed: 0,x,y,w,z
a,0,1,,2
b,3,4,,5
c,3,4,,5
d,6,7,,8


- 재색인은 ix를 이용해서 처리할 수도 있다.


In [42]:
df4 = df.ix[['a', 'b', 'c', 'd'], col]
df4

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,x,y,w,z
a,0.0,1.0,,2.0
b,3.0,4.0,,5.0
c,,,,
d,6.0,7.0,,8.0
