
2장에서 NumPy array의 값에 접근하고 그 값을 설정하고 수정하는 method와 도구에 대해 자세히 알아봤다. 여기에는 Indexing과 슬라이싱 Masking, Fancy Indexing, 그것들의 조합이 포함된다. 이제 Pandas Series와 DataFrame object 값에 접근하고 그 값을 수정하는 도구를 살펴보겠다. NumPy 패턴을 사용해본적이 있다면 특이점이 몇 가지 있기는 하지만 Pandas 패턴도 아주 친숙하게 느낄 것이다.

먼저 간단하게 1차원 Series object로 시작한 후, 좀 더 복잡한 2차원 DataFrame object로 넘어가자.

# 1. Series에서 데이터 선택

앞에서 봤듯이 Series object는 여러 면에서 1차원 Numpy array과 표준 파이썬 dictionary처럼 동작한다. 이 둘의 유사점을 기억하고 있으면 array에서 데이터를 Indexing하고 선택하는 패턴을 이해하는 데 도움이 될 것이다.

## 1) Series: Dictionary
Series object는 dictionary와 마찬가지로 key의 집합을 값의 집합에 mapping한다.

In [48]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], 
                index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [49]:
data['b']

0.5

key/index와 value를 조사하기 위해 dictionary와 유사한 python 표현식과 method를 사용할 수도 있다.

In [50]:
'a' in data

True

In [51]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [52]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Series object는 dictionary와 유사한 구문을 사용해 수정할 수도 있다. 새로운 key에 할당해 dictionary를 확장할 수 있는 것과 마찬가지로 새로운 index 값에 할당함으로써 Series를 확장할 수 있다.

In [53]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

이렇게 object의 변경이 쉽다는 걳은 편리한 특징인데, 그 내부에서 Pandas가 이 변경에 수반되야할 메모리 배치와 데이터 복사에 대한 결정을 수행하므로 일반적으로 사용자는 이러한 이슈에 대해 걱정할 필요가 없다.

## 2) Series : 1차원 array
Series는 dictionary와 유사한 인터페이스를 기반으로 하며 slice, Masking, Fancy Indexing등 NumPy array과 똑같은 기본 메커니즘으로 array 형태의 아이템을 선택할 수 있다. 다음 예제를 통해 확인해 보자

In [54]:
# 명시적인 index로 slicing하기
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [55]:
# 암묵적 정수 index로 slicing하기
data[0:2]

a    0.25
b    0.50
dtype: float64

In [56]:
# Masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [57]:
#Fancy Indexing
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

이 가운데 slicing이 가장 많이 혼동을 일으킬 것이다. 명시적 index(즉, data['a':'c'])로 slicing할 때는 최종 index가 slice에 포함되지만, 암묵적 index(즉, data[0:2])로 slicing하면 최종 index가 그 slice에서 제외된다는 점을 알아두자.

## 3) Indexer : loc, iloc, ix

이 slicing과 indexing의 관례적 표기법은 혼동을 불러일으킨다. 가령 Series가 명시적인 정수 index를 가지고 있다면 data[1]과 같은 indexing 연산은 명시적인 index를 사용하겠지만, data[1:3] 같은 slicing 연산은 python 스타일의 암묵적 index를 사용할 것이다.

In [58]:
data = pd.Series(['a', 'b', 'c'], index = [1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [59]:
# indexing할 때 명시적인 index 사용
data[1]

'a'

In [60]:
# slicing할 때 암묵적 index 사용
data[1:3]

3    b
5    c
dtype: object

정수 index를 사용하는 경우 이런 혼선이 발생할 수 있기 때문에 Pandas는 특정 indexing 방식을 명시적으로 드러내는 몇 가지 특별한 indexer 속성을 제공한다. 이는 fuction method가 아니라 Series의 data에 대한 특정 slicing interface를 드러내는 속성이다.  
먼저 loc 속성은 언제나 명시적인 index를 참조하는 indexing과 slicing을 가능하게 한다.

In [61]:
data.loc[1]

'a'

In [62]:
data.loc[1:3]

1    a
3    b
dtype: object

iloc 속성은 indexing과 slicing에서 언제나 암묵적인 python 스타일의 index를 참조하게 해준다.

In [63]:
data.iloc[1]

'b'

In [64]:
data.iloc[1:3]

3    b
5    c
dtype: object

세 번째 인덱싱 속성인 ix는 앞에서 설명한 두 속성의 hyprid 형태로, Series object에 대해서는 표준 [] 기반의 indexing과 동일하다. ix indexer의 목적은 곧 논의할 DataFrame object에서 더 분명하게 알 수 있으며 이에 대해 곧 알아보겠다.  


python code의 한 가지 원칙이라면 '명시적인 것이 암묵적인 것 보다 낫다'는 것이다. loc와 iloc의 명시적 성격은 명확하고 가독성 있는 코드를 유지하는 데 매우 유용하다. 특히 정수형 index인 경우, 이 두 속성을 사용하는 것이 코드를 읽고 이해하기 쉽게 만들며 뒤섞인 indexing/slicing 관례가 초래하는 미묘한 버그를 방지할 수 있어 좋다.

# 2. DataFrame에서 data 선택

DataFrame은 여러 면에서 2차원 array이나 구조화된 array과 비슷하고, 다른 면에서는 동일 idnex를 공유하는 Series structure의 dictionary와 비슷하다. 이 유사성을 기억하고 있으면 이런 structure에서 data를 선택하는 법을 살펴볼 때 도움이 된다.

## 1) DataFrame : dictionary
여기서 고려할 첫 번째 유사점은 DataFrame이 관련 Series object의 dictionary라는 것이다. 미국 주의 면적과 인구 예제로 다시 돌아가 보자.

In [65]:
area = pd.Series({'California' : 423967, 'Texas' : 695662,
                 'New York' : 141297, 'Florida' : 170312,
                 'Illinois' : 149995})
pop=pd.Series({'California' : 38332521, 'Texas' : 26448193,
                 'New York' : 19651127, 'Florida' : 19552860,
                 'Illinois' : 12882135})
data = pd.DataFrame({'area' : area, 'pop' : pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


DataFrame의 column을 이루는 각 Series는 column 이름으로 된 dictionary style의 indexing을 통해 접근할 수 있다.

In [66]:
data['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

마찬가지로 문자열인 column 이름을 이용해 속성 style로 접근할 수 있다.

In [67]:
data.area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

속성 style로 column에 접근하면 사실상 dictionary style로 접근하는 것과 똑같은 object에 접근한다.

In [68]:
data.area is data['area']

True

이 약식 표현이 유용하기는 하지만 모든 경우에 동작하지는 않는다! 예를 들어, column이름이 문자열이 아니거나 column이름이 DataFrame의 method와 충돌할 때는 이 속성 style로 접근할 수 없다. 예를 들면 DataFrame은 pop() method를 가지고 있으므로 data.pop은 'pop' column이 아니라 그 method를 가리킬 것이다.

In [69]:
data.pop is data['pop']

False

특히 속성을 통해 column을 할당하려고 해서는 안 된다(즉, data.pop = z가 아니라 data['pop'] = z를 사용해야 한다.).  

앞에서 살펴본 Series object와 마찬가지로 이 dictionary 형태의 구문은 객체를 변경할 때도 사용할 수 있다. 지금 예제에서는 새 열을 추가한다.

In [70]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


이것은 Series object 간에 요소 단위로 산술 연산을 하는 간단한 구문이다. 이에 대해서는 131쪽 'pandas에서 data 연산하기'에서 더 자세히 알아보겠다.

## 2) DataFrame : 2차원 array

앞에서 언급한 것처럼 DataFrame을 2차원 array의 보강된 버전으로 볼 수도 있다. values 속성을 이용해 원시 기반 data array을 확인할 수 있다.

In [72]:
data.values

array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01]])

이 예제를 염두에 두고 있으면 DataFrame 자체에 대해 array에서 익숙했던 많은 유사한 작업을 할 수 있다. 예를 들어, 전체 DataFrame의 행과 열을 바꿀 수 있다.

In [73]:
data.T

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,423967.0,170312.0,149995.0,141297.0,695662.0
pop,38332520.0,19552860.0,12882140.0,19651130.0,26448190.0
density,90.41393,114.8061,85.88376,139.0767,38.01874


하지만 DataFrame object indexing에서는 column을 dictionary style로 indexing하면 그 object를 단순히 NumPy array로 다룰 수 없게 된다는 것은 확실하다. 특히, Array에 단일 index를 전달하면 다음과 같이 row에 접근한다.

In [74]:
data.values[0]

array([  4.23967000e+05,   3.83325210e+07,   9.04139261e+01])

그리고 DataFrame에 단일 'index'를 전달하면 열에 접근한다.

In [75]:
data['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

따라서 array style indexing의 경우 다른 표기법이 필요하다. 이때 Pandas는 다시 앞에서 언급한 loc, iloc, ix indexer를 사용한다. iloc indexer를 사용하면 DataFrame object가 단순 NumPy array인 것처럼(암묵적 python style의 index 사용) 기반 array을 indexing할 수 있지만, DataFrame index와 column label은 결과에 그대로 유지된다.

In [76]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [77]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


ix indexer는 이 두 방식의 hybrid 형태다.

In [78]:
data.ix[:3, :'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


정수형 index일 경우, ix indexer도 정수형 index를 가진 Series object에서 논의했던 것과 똑같은 혼선을 초래할 여지가 있음을 유념하자.  

NumPy style의 익숙한 data 접근 pattern은 이 indexer들에서도 사용할 수 있다. 예를 들어, loc indexer에서 다음처럼 masking과 fancy indexing을 결합할 수 있다.

In [79]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
Florida,19552860,114.806121
New York,19651127,139.076746


이 indexing 규칙은 값을 설정하거나 변경하는 데도 사용될 수 있다. 이는 NumPy에서 작업하는 데 익숙한 표준 방식으로 이뤄진다.

In [80]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


Pandas에서 data 가공을 능숙하게 하려면 간단한 DataFrame에 시간을 투자해서 다양한 indexing 기법이 제공하는 indexing, slicing, masking, fancy indexing 유형을 알아보는 것이 좋다.

## 3) 추가적인 indexing 규칙

앞의 내용과 전혀 다르게 보일지도 모르지만, 실무에서 매우 유용한 몇 가지 추가적인 indexing 규칙이 있다. 우선 indexing은 column을 참조하는 반면, slicing은 row를 참조한다.

In [81]:
data['Florida' : 'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


이 slice는 index 대신 숫자로 row를 참조할 수도 있다.

In [82]:
data[1:3]

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


이와 비슷하게 직접 masking 연산은 column 단위가 아닌 row 단위로 해석된다.

In [84]:
data[data.density > 100]

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
New York,141297,19651127,139.076746


이 두 규칙은 구문적으로 NumPy array와 유사하며, Pandas 규칙의 틀에 딱 들어맞지는 않지만 실제로 꽤 유용하다.


# 3. Pandas에서 data 연산하기

NumPy의 기본 중 하나는 기본 산술 연산(덧셈, 뺄셈, 곱셈 등)과 복잡한 연산(삼각함수, 지수와 로그함수 등) 모두에서 요소 단위의 연산을 빠르게 수행할 수 있다는 점이다. Pandas는 NumPy로부터 이 기능의 대부분을 상속받았으며, 58쪽 'NumPy 배열 연산: 유니버설 함수'에서 소개했던 유니버설 함수가 그 핵심이다.  
Pandas는 몇 가지 유용한 특수 기능을 포함하고 있다. 부정함수와 삼각함수 같은 단항 연산의 경우에는 이 universal fuction이 결과물에 index와 column label을 보존하고, 덧셈과 곱셈 같은 이항 연산의 경우에는 Pandas가 universal function에 object를 전달할 때 자동으로 index를 정렬한다. 다시 말해 Pandas를 이용하면 data의 맥락을 유지하고 다른 source에서 가져온 data를 결합하는 작업(둘 다 원시 NumPy array로는 오류가 발생하기 쉬운 작업)을 근본적으로 실패할 일이 없다는 뜻이다. 이 밖에도 1차원 Series structure와 2차원 DataFrame structure 사이에 잘 정의된 연산에 대해 알아보겠다.

# 4. Universal Function : Index 보존

Pandas는 NumPy와 함께 작업하도록 설계됐기 때문에 NumPy의 universal fuction이 Pandas Series와 DataFrame object에 동작한다. 먼저 이를 보여줄 간단한 Series와 DataFrame을 정의하자.

In [85]:
import pandas as pd
import numpy as np
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [86]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                 columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


NumPy universal function을 이 object 중 하나에 적용하면 그 결과는 index가 그대로 보존된 다른 Pandas object가 될 것이다.

In [87]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

다음은 약간 더 복잡한 계산이다.

In [88]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


58쪽 'NumPy array 연산: universal function'에서 논의한 universal fuction은 모두 비슷한 방식으로 사용할 수 있다.

# 5. Universal Fuction : Index 정렬

두 개의 Series 또는 DataFrame object에 이항 연산을 적용하는 경우, Pandas는 연산을 수행하는 과정에서 index를 정렬한다. 이는 다음에 나올 몇 가지 예제에서 보는 바와 같이 불완전한 data로 작업할 때 매우 편리하다.

## 1) Series에서 index 정렬

두 개의 다른 data source를 결합해 미국 주에서 면적 기준 상위 세 개의 주와 인구 기준 상위 세 개의 주를 찾는다고 가정하자.

In [89]:
area = pd.Series({'Alaska' : 1723337, 'Texas' : 695662,
                 'California' : 423967}, name = 'area')
population = pd.Series({'California' : 38332521, 'Texas' : 26448193,
                       'New York' : 19651127}, name = 'population')

이제 이 둘을 나누어 밀도를 계산하면 어떤 일이 일어나는지 보자.

In [90]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

결과 array는 두 입력 array의 index의 합집합을 담고 있으며, 그 합집합은 이 index에 표준 python 집합연산을 사용해 결정된다.

In [91]:
area.index | population.index

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

둘 중 하나라도 값이 없는 항목은 Pandas가 누락된 data를 표시하는 방식에 따라 NaN, 즉 '숫자가 아님(Not a Number)'로 표시된다. 이 index matching은 python에 내장된 산술 표현식에 대해서도 같은 방식으로 구현돼 있다. 누락된 값은 기본으로 NaN으로 채워진다.

In [92]:
A = pd.Series([2, 4, 6], index = [0, 1, 2])
B = pd.Series([1, 3, 5], index = [1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

NoN 값 사용을 원치 않을 경우, 연산자 대신에 적절한 object method를 사용해 채우기 값을 수정할 수 있다. 예를 들어, A.add(B)를 호출하면 A + B를 호출하는 것과 같지만, A나 B에서 누락된 요소의 채우기 값을 선택해 명시적으로 지정할 수 있다.

In [93]:
A.add(B, fill_value = 0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

## 2) DataFrame에서 index 정렬

DataFrame에서 연산을 수행할 때 column과 index 모두에서 비슷한 유형의 정렬이 발생한다.

In [94]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [95]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                columns = list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [96]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


두 object의 순서와 상관없이 index가 올바르게 정렬되고 결과 index가 정렬된다. Series와 마찬가지로 관련 object의 산술 연산 method를 사용해 누락된 값 대신 원하는 fill_value를 전달할 수 있다. 여기서는 A에 있는 모든 값(먼저 A의 row를 쌓아서 계산함)의 평균값으로 채운다.

In [97]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


# 6. Universal Function : DataFrame과 Seires 간의 연산

DataFrame과 Series 사이에서 연산할 때 index와 row의 순서는 비슷하게 유지된다. DataFrame과 Series 사이의 연산은 2차원 NumPy array와 1차원 NumPy array 사이의 연산과 비슷하다. 2차원 array와 그 array의 row하나와의 차이를 알아내는 일반적인 연산을 생각해보자.

In [98]:
A = rng.randint(10, size=(3, 4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [99]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

NumPy Broadcasting 규칙에 따르면 2차원 array에서 그 array의 row 하나를 빼는 것은 row 방향으로 적용된다.  

Pandas에서도 연산 규칙이 기본적으로 row 방향으로 적용된다.

In [100]:
df = pd.DataFrame(A, columns = list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


column 방향으로 연산하고자 한다면 앞에서 언급한 object method를 사용하면서 axis keyword를 지정하면 된다.

In [101]:
df.subtract(df['R'], axis = 0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


DataFrame/Series 연산은 앞에서 언급했던 연산과 마찬가지로 두 요소 간의 index를 자동으로 맞춘다.

In [103]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int64

In [104]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


이렇게 index와 row를 맞추고 보존한다는 것은 Pandas에서의 data 연산이 항상 data 맥락을 유지하기 때문에 원시 NumPy array에서 이종의 정렬되지 않은 data로 작업할 때 발생할 수 있는 오류를 방지할 수 있다는 뜻이다.