# pandas 핵심기능
## 재색인(reindexing)

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [6]:
data1 = pd.Series([1.2, 3.4, 0, -2], index = ['c', 'b', 'a', 'd'])
data1

c    1.2
b    3.4
a    0.0
d   -2.0
dtype: float64

In [10]:
# 재색인
data2 = data1.reindex(['a', 'b', 'c', 'd', 'e'])
data2
# data1 은 그대로 유지

c    1.2
b    3.4
a    0.0
d   -2.0
dtype: float64

In [8]:
#중복 인덱스 일 경우 reindex -> error
data3 = pd.Series([1,2,3,4], index = ['a', 'a', 'b', 'b'])
data3

a    1
a    2
b    3
b    4
dtype: int64

In [9]:
data4 = data3.reindex(['a', 'b', 'c'])
data4 #error! ValueError: cannot reindex from a duplicate axis

ValueError: cannot reindex from a duplicate axis

In [11]:
# 순차적인 데이터 재식인 시 값을 보간 or 채워 넣기 
data = pd.Series(['a', 'b', 'c'], index = [0, 2, 4])
data 
# method 옵션을 통해서 누락된 값을 어떤 값으로 설정할지 선택 가능.
data.reindex(range(6), method='ffill')

0    a
1    a
2    b
3    b
4    c
5    c
dtype: object

KeyError: "['column5', 'column6'] not in index"

In [12]:
# Frame
frame = pd.DataFrame(np.arange(9).reshape((3,3)), 
                    index = ['a', 'b', 'c'],
                    columns = ['column1', 'column2', 'column3'])
frame

Unnamed: 0,column1,column2,column3
a,0,1,2
b,3,4,5
c,6,7,8


In [36]:
# index 
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2
# frame

Unnamed: 0,column1,column2,column3
a,0,1,2
b,3,4,5
c,6,7,8


In [26]:
# columns 예약어로 column 설정 가능.
columns = ['column3', 'column5', 'column6']
frame2 = frame.reindex(columns=columns)
frame2

Unnamed: 0,column3,column5,column6
a,2,,
b,5,,
c,8,,


In [29]:
# loc 을 이용한 재색인 -> Error!
columns = ['column2', 'column3' ,'column5']
frame.loc[['a', 'b', 'c'], columns]

KeyError: "['column5'] not in index"

## 하나의 로우나 칼럼 삭제하기

In [35]:
# drop() : 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.
obj = pd.Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])
new_obj= obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [34]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [37]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [38]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [39]:
data = pd.DataFrame(np.arange(9).reshape((3,3)),
                   index=['a', 'b', 'c'],
                   columns=['one', 'two', 'three']
                   )
data

Unnamed: 0,one,two,three
a,0,1,2
b,3,4,5
c,6,7,8


In [40]:
#DataFrame 에서 행 삭제
data.drop('a')

Unnamed: 0,one,two,three
b,3,4,5
c,6,7,8


In [42]:
#DataFrame 에서 열 삭제, axis 키워드 사용 (1 or 'columns')
data.drop('one', axis=1)

Unnamed: 0,two,three
a,1,2
b,4,5
c,7,8


In [43]:
data.drop(['one', 'three'], axis='columns')

Unnamed: 0,two
a,1
b,4
c,7


In [45]:
# inplace 키워드를 이용해 원본 객체를 변경할 수 있다.
data.drop('c', inplace=True)
data

Unnamed: 0,one,two,three
a,0,1,2
b,3,4,5
