### 핵심기능

#### 재 색인 (reindex)

- 새로운 색인에 맞게 객체를 새로 생성
- `reindex` : 데이터를 새로운 색인에 맞게 재배열하고 존재하지 않는 색인값은 NaN을 추가

In [1]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])

obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [2]:
obj2 = obj.reindex(['a','b','c', 'd','e'])

obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

- `method의 ffill` : 시계열같은 순차적 데이터 재 색인할때 값 보간 하거나 채우기 위해 사용
    - 누락된 값을 직전의 값으로 채워줌

In [3]:
obj3 = pd.Series(['blue', 'puple', 'yellow'], index = [0, 2, 4])

obj3

0      blue
2     puple
4    yellow
dtype: object

In [4]:
obj3.reindex(range(6), method = 'ffill')

0      blue
1      blue
2     puple
3     puple
4    yellow
5    yellow
dtype: object

- DataFrame에 대한 reindex는 low(index), column 또는 둘다 변경 가능함. 순서만 전달하면 low가 재 색인됨

In [5]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a', 'c','d'], 
                    columns = ['Ohio', 'Texas', 'California'])

frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [7]:
frame2 = frame.reindex(['a', 'b','c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


- column예약어로 column 재색인

In [8]:
states = ['Texas', 'Utah', 'California']

frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


- 재색인 함수 인자

|인자|설명|
|:--|:--|
|index|색인으로 사용할 새로운 순서. index 인스턴스나 다른 순차적인 자료구조가 사용 가능. index는 복사 이뤄지지 않고 그대로 사용됨|
|method|채움 메서드. ffill은 직전 값을 채워넣고 bfill은 다음 값을 채워넣음|
|fill_value|재색인 과정 중 새롭게 나타나는 비어있는 데이터 채우기 위한 값|
|limit|전/후 보간 시 사용할 최대 갭 크기(채워넣을 원소의 수)|
|tolerance|전/후 보간 시 사용할 최대 갭 크기(값의 차이)|
|level|MultiIndex의 단계(level)에 단순 색인을 맞춤. 그렇지 않으면 MultiIndex의 하위 집합에 맞춤|
|copy|True인 경우 새로운 색인이 이전 색인과 동인하더라도 데이터 복사함. False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않음|

- `loc` : loc을 통해 더 간결히 재색인 처리 가능함. 대부분 많은 경우 사용!

In [9]:
frame.loc[['a', 'b', 'c', 'd'], states]

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


#### 하나의 로우나 칼럼 삭제

- `drop` : 색인 배열 또눈 삭제하려는 로우나 칼럼 삭제. 선택한 값들이 삭제된 새로운 객체 얻음
    - 새로운 객체를 반환하며 원본 객체 변경함

In [10]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c','d', 'e'])

obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [13]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [14]:
obj.drop(['d', 'c'])  # 없는 것도 에러 안나고 실행됨

a    0.0
b    1.0
e    4.0
dtype: float64

In [15]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


- low 삭제

In [16]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


- column삭제

In [17]:
data.drop('two',  axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [18]:
data.drop(['two', 'four'], axis = 'columns')  # 없는 칼럼 있어도 에러없이 실행됨

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


- `inplace` 옵션의 경우, 버려지는 값을 모두 삭제하므로 주의!!

In [19]:
obj.drop('c', inplace=True)   

obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

참고 자료
> Python for Data Analysis(2019), 한빛미디어  