In [2]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

### 재색인(reindex)하는경우, 있는 값은 새로운 index에 맞게 재배열하고, 없는값은 NaN으로 추가한다.

In [3]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [4]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [5]:
#초기값을 주어 재색인
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

In [6]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [7]:
#method와 ffill을 이용하면, 누락된 값을 직전값으로 채울수 있다
#ffill : 앞의 값으로, bfill : 뒤의 값으로
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [8]:
frame = DataFrame(
    np.arange(9).reshape((3, 3)), 
    index=['a', 'b', 'c'],
    columns=['Ohio', 'Texas', 'Califonia']
)
frame

Unnamed: 0,Ohio,Texas,Califonia
a,0,1,2
b,3,4,5
c,6,7,8


In [9]:
#DataFrame에 대한 재색인 작업
frame.reindex(['a', 'b', 'c', 'd'])

Unnamed: 0,Ohio,Texas,Califonia
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


In [10]:
#DataFrame 컬럼에 대한 재색인 작업
states = ['Texas', 'Ohio', 'Califonia', 'Utah']
frame.reindex(columns=states)

Unnamed: 0,Texas,Ohio,Califonia,Utah
a,1,0,2,
b,4,3,5,
c,7,6,8,


In [11]:
#ix를 이용하여, DataFrame재색인 작업
frame.ix[['a', 'b', 'c', 'd'], states]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


Unnamed: 0,Texas,Ohio,Califonia,Utah
a,1.0,0.0,2.0,
b,4.0,3.0,5.0,
c,7.0,6.0,8.0,
d,,,,


### 하나의 로우 또는 컬럼 삭제하기

In [12]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
new_obj=obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [13]:
#b와 c를 삭제한 결과를 리턴한다. 실제 obj에 반영된것은 아니다.
obj.drop(['b', 'c'])

a    0.0
d    3.0
e    4.0
dtype: float64

In [14]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [15]:
#DataFrame에서 삭제하기
data = DataFrame(
    np.arange(16).reshape((4, 4)),
    index=['Ohio', 'Colorado', 'Utah', 'New York'],
    columns=['one', 'two', 'three', 'four']
)
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [16]:
#axis=0이 생략된 구문(디폴트는 index기준임)
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [17]:
#컬럼인경우, axis=1을 명시
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


### Series에 대한 색인은 index와 같은 자료형인 경우 index를 기준으로 선택하고
### 다른경우, value를 기준으로 선택한다.

In [18]:
#문자 인덱스에 대한 색인 
obj = Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
obj

a    1
b    2
c    3
d    4
dtype: int64

In [19]:
#색인값은 인덱스의 순서기준이다.
obj[1]

2

In [20]:
 obj[[1, 3]]

b    2
d    4
dtype: int64

In [21]:
#단, Series자체에 대한 수식이 있는경우, 전체값에 적용한 index를 리턴한다.
obj[obj > 2]

c    3
d    4
dtype: int64

In [22]:
#인덱스 이름 범위로 색인시 끝의 값을 포함한다.
obj['a' : 'c']

a    1
b    2
c    3
dtype: int64

In [23]:
#index가 숫자인경우, 색인은 번째가 아닌 실제 인덱스 값이 된다.
obj = Series(np.arange(4.), index=[11, 12, 13, 14])
obj

11    0.0
12    1.0
13    2.0
14    3.0
dtype: float64

In [24]:
 #숫자 index이기 때문에 실제 index값과 같은 index를 리턴한다.
obj[[1, 11]]

1     NaN
11    0.0
dtype: float64

In [25]:
#인덱스 값으로 범위로 색인시 끝의 값을 포함하지 않는다.
obj[1 : 3]

12    1.0
13    2.0
dtype: float64

In [26]:
#DataFrame에서 선택하기
data = DataFrame(
    np.arange(16).reshape((4, 4)),
    index=['Ohio', 'Colorado', 'Utah', 'New York'],
    columns=['one', 'two', 'three', 'four']
)
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [27]:
#슬라이싱하는 경우, index기준임
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [28]:
#블리언 배열로 컬럼기준으로 선택할수 있다.
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [32]:
#index와 컬럼을 선택하기
data.ix[['Colorado', 'Ohio'], ['three', 'four']]

Unnamed: 0,three,four
Colorado,6,7
Ohio,2,3


In [30]:
#index와 컬럼을 선택하기
data.ix[['Colorado', 'Ohio'], [2, 3]]

Unnamed: 0,three,four
Colorado,6,7
Ohio,2,3


In [33]:
#index와 컬럼을 선택하기
data.ix[data.three > 5, :2]

Unnamed: 0,one,two
Colorado,4,5
Utah,8,9
New York,12,13


In [34]:
#index와 컬럼을 선택하기
data.ix[:2, :2]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5
