# 2. Pandas 핵심기능

## 2.1 재색인

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj = pd.Series([4, 6, 2, 9], index=['d', 'b', 'a', 'c'])
obj

d    4
b    6
a    2
c    9
dtype: int64

In [3]:
# 재색인 -> reindex
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a    2.0
b    6.0
c    9.0
d    4.0
e    NaN
dtype: float64

In [4]:
# fill_value option 사용시에 비어있는 값을 채울 수 있다
obj = obj.reindex(['a','b','c','d','e'], fill_value=0)
obj

a    2
b    6
c    9
d    4
e    0
dtype: int64

In [5]:
# method(보간) option (시계열 date등 자주 쓰인다)
# ffill or pad -> 앞의 값으로 채워 넣는다
# bfill or backfill -> 뒤의 값으로 채워 넣는다

obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0,2,4])
obj3.reindex(range(6), method='pad')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [6]:
frame = pd.DataFrame(np.arange(9).reshape(3,3), index=['a','c','d'], columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [7]:
# raw reindex
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [8]:
# columns reindex
frame.reindex(columns=['Texas','Utah','California'])

# or
states = ['Texas','Utah','California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [9]:
frame.reindex(index=['a','b','c','d'], method='pad', columns=states)

ValueError: index must be monotonic increasing or decreasing

In [10]:
frame.loc(['a','b','c','d'], states)

TypeError: __call__() takes from 1 to 2 positional arguments but 3 were given

### 재색인 함수 인자
* index : 색인으로 사용할 순서, 색인은 복사가 이뤄지지 않고 그대로 사용 됨

* method : 보간 메서드

* fill_value : 재색인 중에 비어있는 데이터 채우기

* limit : 전/후 보간시에 사용할 최대 갭 크기

* level : multiIndex 단계(level)에 단순 색인을 맞춘다. 그렇지 않은 경우 멀티인덱스 하위 부분집합에 맞춤

* copy : True일 경우 새로운 색인 이전 색인과 같더라도 데이터 복사. False면 두 색인이 같을경우 복사하지 않음

## 2.2 하나의 로우 또는 칼럼 삭제하기

In [12]:
# index를 제거 -> drop
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [13]:
obj.drop(['b','c'])

a    0.0
d    3.0
e    4.0
dtype: float64

In [14]:
data = pd.DataFrame(np.arange(16).reshape(4,4), index=['Ohio','Colorado','Utah','Newyork'], columns=['one','two','three','four'])
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Newyork,12,13,14,15


In [15]:
# columnd을 삭제할경우 option (axis=1)
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
Newyork,12,14,15


In [16]:
data.drop(['one','four'], axis=1)

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
Newyork,13,14


## 2.3 색인하기, 선택하기, 거르기

In [17]:
obj = pd.Series(np.arange(4.), index=['a','b','c','d'])

In [18]:
# 숫자건 문자건 인덱싱할때는 상관이 없음
obj['b']

1.0

In [19]:
obj[1]

1.0

In [27]:
# 슬라이싱으로 인덱싱 가능
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [28]:
# 라벨로 인덱싱경우 시작점과 끝점을 포함 (위와 다름)
obj['a':'c']

a    0.0
b    1.0
c    2.0
dtype: float64

In [23]:
# 여러개를 인덱싱할 경우에는 리스트로 묶어서 호출
obj[['b','c','d']]

b    1.0
c    2.0
d    3.0
dtype: float64

In [24]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [25]:
# 불리언 배열로 선택
obj[obj<2] # row indexing

a    0.0
b    1.0
dtype: float64

In [30]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [31]:
# DataFrame indexing
data = pd.DataFrame(np.arange(16).reshape(4,4), index=['Ohio','Colorado','Utah','Newyork'], columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
Newyork,12,13,14,15


In [32]:
# column 인덱싱 (row는 불가능) -> DataFrame에서의 기본은 obj[val] => column 색인
data['two']

Ohio         1
Colorado     5
Utah         9
Newyork     13
Name: two, dtype: int64

In [33]:
data[['two','three']]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
Newyork,13,14


In [36]:
# row의 경우 숫자로 인덱싱 가능 (디폴드 값)
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [35]:
# 불리언 배열로 칼럼 선택 가능 -> 실용성에 기인한 문법(중요)
data[data['three']>5] # row 색인

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
Newyork,12,13,14,15


In [37]:
data<5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
Newyork,False,False,False,False


In [38]:
data[data<5]

Unnamed: 0,one,two,three,four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,,,
Utah,,,,
Newyork,,,,


In [41]:
data[data<5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
Newyork,12,13,14,15


In [42]:
# 재색인 마법사 : ix
# 축의 라벨로 DataFrame의 row와 column을 선택할 수 있게 만들었음
# 앞의 값은 row, 뒤의 값은 column에 대한 조건
# pandas에서 column을 색인할때마다 df[:,col]이라고 입력하는 것이 짜증나서 ix에 색인기능 몰아 넣음
data.ix['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

In [44]:
data.ix[['Colorado','Utah'], [3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [45]:
data.ix[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [46]:
# 슬라이싱으로 인덱싱 할때는 리스트가 필요없음
data.ix[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [47]:
data.ix[data.three>5, :3]    # row의 조건이 앞에 온다.(불리언조건 가능)

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
Newyork,12,13,14


### DataFrame에서의 indexing(색인하기 / 값 선택하기)
* obj[val]            : DataFrame에서 하나 또는 여러 column을 선택한다. 
  편의를 위해 불리언배열, 슬라이스, 불리언DateFrame(어떤기준에 근거하여 값을 대입해야 할때)를 사용할 수 있다.
* ojb.ix[val]         : DataFrame row의 부분집합 선택
* obj.ix[:,val]       : DataFrame columnd의 부분집합 선택
* obj.ix[val1, val2]  : DataFrame row와 column의 부분집합 선택
* reindex method      : 하나 이상의 축을 새로운 색인으로 맞춤
* xs method           : 라벨 이름으로 단일 row나 column을 Series형식으로 선택
* icol, irow mothed   : 각각 정수 색인으로 단일 row나 column을 Series형식으로 선택
* get_value, set_value method : row와 column의 이름으로 DataFrame의 값을 선택

## 2.4 산술연산과 데이터 정렬

In [49]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.3, 3.5, -2.1, 4, 3.7], index=['a','c','e','f','g'])

In [50]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [51]:
s2

a   -2.3
c    3.5
e   -2.1
f    4.0
g    3.7
dtype: float64

In [53]:
# Series연산시 두 결과가 통합, 겹치는 색인이 없을 시 NA
s1+s2

a    5.0
c    1.0
d    NaN
e   -0.6
f    NaN
g    NaN
dtype: float64

In [54]:
df1 = pd.DataFrame(np.arange(9).reshape(3,3), columns=list('bcd'), index=['Ohio','Texas','Colorado'])
df2 = pd.DataFrame(np.arange(12).reshape(4,3), columns=list('bde'), index=['Utah','Ohio','Texas','Oregon'])

In [55]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [56]:
df2

Unnamed: 0,b,e,d
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [58]:
# DataFrame 연산시 row와 column이 합쳐진다. 겹치는 색인이 없을시 NA
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,7.0,
Oregon,,,,
Texas,9.0,,13.0,
Utah,,,,


### 산술연산시 NA대신 채워넣을 값 지정

In [59]:
df1 = pd.DataFrame(np.arange(12).reshape(3,4), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20).reshape(4,5), columns=list('abced'))

In [60]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,7.0,
1,9.0,11.0,13.0,16.0,
2,18.0,20.0,22.0,25.0,
3,,,,,


In [63]:
# 산술연산이나 reindex시에 fill_value를 사용하면 원하는 값을 채울 수 있음.
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,7.0,3.0
1,9.0,11.0,13.0,16.0,8.0
2,18.0,20.0,22.0,25.0,13.0
3,15.0,16.0,17.0,19.0,18.0


In [64]:
df1.reindex(columns=df2.columns, fill_value=1)

Unnamed: 0,a,b,c,e,d
0,0,1,2,1,3
1,4,5,6,1,7
2,8,9,10,1,11


### 산술연산 메서드
* add / sub / div / mul

### DataFrame과 Series와의 연산

In [68]:
# numpy array 연산 -> broadcating
arr = np.arange(12).reshape(3,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [69]:
arr[0]

array([0, 1, 2, 3])

In [70]:
arr + arr[0]

array([[ 0,  2,  4,  6],
       [ 4,  6,  8, 10],
       [ 8, 10, 12, 14]])

In [71]:
arr - arr[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [84]:
df = pd.DataFrame(np.arange(12).reshape(4,3), columns=list('bde'), index=['Utah','Ohio','Texas','Oregon'])
#series = pd.Series(df.ix[0])
series = pd.Series(df.iloc[0]) # ix보다 iloc이나 loc이 권장됨

In [73]:
df

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [74]:
series

b    0
d    1
e    2
Name: Utah, dtype: int64

In [75]:
# Series색인(index)을 DataFrame의 column에 맞춘 후, 아래 row로 전파
df - series

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


In [77]:
series2 = pd.Series(range(3), index=['b','e','f'])
series2

b    0
e    1
f    2
dtype: int64

In [79]:
# Series의 index와 DataFrame의 column의 교집합이 없는 색인의 경우, 형식을 맞추기 위해 재색인 된다.(NA값으로 채워짐)
df + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [81]:
series3 = df['d']

In [82]:
# row연산 -> 산술연산 method사용
df.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


## 2.5 함수 적용과 매핑

In [90]:
df = pd.DataFrame(np.random.randn(12).reshape(4,3), columns=list('bde'), index=['Utah','Ohio','Texas','Oregon'])

In [91]:
df

Unnamed: 0,b,d,e
Utah,-0.030925,-0.015535,0.450466
Ohio,-0.290749,0.229783,0.38922
Texas,0.682449,0.134847,-1.18863
Oregon,-0.142941,1.05473,-1.113791


In [92]:
np.abs(df)

Unnamed: 0,b,d,e
Utah,0.030925,0.015535,0.450466
Ohio,0.290749,0.229783,0.38922
Texas,0.682449,0.134847,1.18863
Oregon,0.142941,1.05473,1.113791


In [93]:
# 함수적용 : Pandas의 apply method
f = lambda x : x.max() - x.min()
df.apply(f)

b    0.973198
d    1.070265
e    1.639096
dtype: float64

In [94]:
df.apply(f, axis=1)

Utah      0.481391
Ohio      0.679969
Texas     1.871080
Oregon    2.168521
dtype: float64

In [None]:
"""
axis option

axis = 0 (Default)
column / 세로 (Vertically)
   
axis = 1
raw / 가로 (horizontally)

"""

In [95]:
# 각 원소에 적용가능 함수 : applymap
f = lambda x : '%.2f' %x
df.applymap(f)

Unnamed: 0,b,d,e
Utah,-0.03,-0.02,0.45
Ohio,-0.29,0.23,0.39
Texas,0.68,0.13,-1.19
Oregon,-0.14,1.05,-1.11


In [96]:
df['e'].map(f)

Utah       0.45
Ohio       0.39
Texas     -1.19
Oregon    -1.11
Name: e, dtype: object

## 2.6 정렬과 순위