## pandas 핵심기능
### 재색인(reindexing)

In [2]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [6]:
data1 = pd.Series([1.2, 3.4, 0, -2], index = ['c', 'b', 'a', 'd'])
data1

c    1.2
b    3.4
a    0.0
d   -2.0
dtype: float64

In [10]:
# 재색인
data2 = data1.reindex(['a', 'b', 'c', 'd', 'e'])
data2
# data1 은 그대로 유지

c    1.2
b    3.4
a    0.0
d   -2.0
dtype: float64

In [8]:
#중복 인덱스 일 경우 reindex -> error
data3 = pd.Series([1,2,3,4], index = ['a', 'a', 'b', 'b'])
data3

a    1
a    2
b    3
b    4
dtype: int64

In [9]:
data4 = data3.reindex(['a', 'b', 'c'])
data4 #error! ValueError: cannot reindex from a duplicate axis

ValueError: cannot reindex from a duplicate axis

In [11]:
# 순차적인 데이터 재식인 시 값을 보간 or 채워 넣기 
data = pd.Series(['a', 'b', 'c'], index = [0, 2, 4])
data 
# method 옵션을 통해서 누락된 값을 어떤 값으로 설정할지 선택 가능.
data.reindex(range(6), method='ffill')

0    a
1    a
2    b
3    b
4    c
5    c
dtype: object

KeyError: "['column5', 'column6'] not in index"

In [12]:
# Frame
frame = pd.DataFrame(np.arange(9).reshape((3,3)), 
                    index = ['a', 'b', 'c'],
                    columns = ['column1', 'column2', 'column3'])
frame

Unnamed: 0,column1,column2,column3
a,0,1,2
b,3,4,5
c,6,7,8


In [36]:
# index 
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2
# frame

Unnamed: 0,column1,column2,column3
a,0,1,2
b,3,4,5
c,6,7,8


In [26]:
# columns 예약어로 column 설정 가능.
columns = ['column3', 'column5', 'column6']
frame2 = frame.reindex(columns=columns)
frame2

Unnamed: 0,column3,column5,column6
a,2,,
b,5,,
c,8,,


In [29]:
# loc 을 이용한 재색인 -> Error!
columns = ['column2', 'column3' ,'column5']
frame.loc[['a', 'b', 'c'], columns]

KeyError: "['column5'] not in index"

### 하나의 로우나 칼럼 삭제하기

In [35]:
# drop() : 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.
obj = pd.Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])
new_obj= obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [34]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [37]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [38]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [39]:
data = pd.DataFrame(np.arange(9).reshape((3,3)),
                   index=['a', 'b', 'c'],
                   columns=['one', 'two', 'three']
                   )
data

Unnamed: 0,one,two,three
a,0,1,2
b,3,4,5
c,6,7,8


In [40]:
#DataFrame 에서 행 삭제
data.drop('a')

Unnamed: 0,one,two,three
b,3,4,5
c,6,7,8


In [42]:
#DataFrame 에서 열 삭제, axis 키워드 사용 (1 or 'columns')
data.drop('one', axis=1)

Unnamed: 0,two,three
a,1,2
b,4,5
c,7,8


In [43]:
data.drop(['one', 'three'], axis='columns')

Unnamed: 0,two
a,1
b,4
c,7


In [45]:
# inplace 키워드를 이용해 원본 객체를 변경할 수 있다.
data.drop('c', inplace=True)
data

Unnamed: 0,one,two,three
a,0,1,2
b,3,4,5


### 색인하기, 선택하기, 거르기

In [4]:
#Seires 에서의 색인, 선택, 거르기
obj = pd.Series(np.arange(5), index=['a','b','c','d','e'])
obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [5]:
# 요소 색인1 (index 라벨로 찾기)
obj['c']

2

In [10]:
# 요소 색인2 (정수로 선택하기)
obj[2], obj[0]

(2, 0)

In [13]:
# 슬라이싱 -> 라벨 이름으로 슬라이싱하면 끝점을 포함함. 
obj['a':'c']

a    0
b    1
c    2
dtype: int32

In [14]:
# 정수 색인 시 끝점 포함 x
obj[2:4] 

c    2
d    3
dtype: int32

In [15]:
obj[['c','d','e']]

c    2
d    3
e    4
dtype: int32

In [18]:
obj[obj < 3][obj > 1]

c    2
dtype: int32

In [19]:
#DataFrame 에서의 색인 선택, 거르기
data = pd.DataFrame(np.arange(16).reshape((4,4)), 
                   index=['a','b','c','d'],
                   columns=['one','two','three','four']
                   )
data

Unnamed: 0,one,two,three,four
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [20]:
data['one']

a     0
b     4
c     8
d    12
Name: one, dtype: int32

In [21]:
data[['one','three']]

Unnamed: 0,one,three
a,0,2
b,4,6
c,8,10
d,12,14


In [22]:
# 슬라이싱으로 로우 선택
data[:2]

Unnamed: 0,one,two,three,four
a,0,1,2,3
b,4,5,6,7


In [28]:
data['three'] > 5

a    False
b     True
c     True
d     True
Name: three, dtype: bool

In [29]:
# 불리언 배열로 선택
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [31]:
#loc과 iloc 으로 선택하기
# 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택할 수 있음.
# loc : row, column name 순
data.loc[['a','b'],'one']

a    0
b    4
Name: one, dtype: int32

In [32]:
# iloc : 정수 색인 가능
# 2 is c, [2,0,3] is three, one, four
data.iloc[2,[2,0,3]]

three    10
one       8
four     11
Name: c, dtype: int32

In [33]:
data.iloc[1]

one      4
two      5
three    6
four     7
Name: b, dtype: int32

In [38]:
# loc, iloc 함수는 단일 라벨이나 라벨 리스트도 지원한다.
data.loc[:'c', 'two']

a    1
b    5
c    9
Name: two, dtype: int32

### 정수 색인