## pandas 라이브러리
* 고수준의 자료구조와 빠르고 쉽게 사용 가능한 데이터 분석 도구 포함
* 다른 산술 도구(NumPy, SciPy)와 분석 라이브러리(statsmodels, scikit-learn), 시각화도구(matplotlib)와 함께 사용하는 경우가 흔함

### pandas의 특징
* NumPy의 배열 기반 스타일을 많이 차용함
  * for 문을 사용하지 않고 데이터 처리
  * 배열 기반의 함수 제공

### NumPy와 pandas의 차이점
* panas는 표 형식의 데이터를 포함한 다양한 형태의 데이터를 다루는 데에 초점을 맞춰 설계
* NumPy는 단일 산술 배열 데이터를 다루는 데 특화

In [1]:
# pd는 보편적으로 pandas 라이브러리를 지칭하는 것
import pandas as pd
import numpy as np

In [2]:
# Series와 DataFrame은 로컬 네임스페이스로 임포트 하는 것이 편함
from pandas import Series, DataFrame

## pandas의 자료구조 Series, DataFrame
### 1. Series
* 1차원 자료구조 (어떤 NumPy 자료형이라도 담을 수 있다)
* 색인(index)을 가지고 있다 (기본 색인은 정수 0부터 N-1)

In [3]:
# 배열 데이터로부터 Series 객체 생성 가능
obj = pd.Series([4, 7, -5, 3])

In [4]:
# Series 객체의 문자열 표현: 왼쪽에 색인, 오른쪽에 색인에 해당하는 값
# 기본 색인은 정수 0부터 데이터 길이보다 1 작은 값까지로 설정된다
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
# 각각의 데이터를 지칭하는 색인을 지정하고 싶다면
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [6]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
# 색인으로 여러 값을 선택할 때, 색인으로 라벨 가능 (NumPy와 차이점)
obj2['a']

-5

In [9]:
obj2['d']

4

In [10]:
# obj2의 색인으로 들어간 ['c', 'a', 'd']는 색인의 배열로 해석
# 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈 수행, 수학 함수 적용 등 NumPy 배열 연산을 수행해도 색인-값 연결 유지
obj2[['c', 'a', 'd']]

c    3
a   -5
d    4
dtype: int64

In [11]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [12]:
obj2[obj2>0]

d    4
b    7
c    3
dtype: int64

In [13]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

> Series는 고정 길이의 정렬된 사전(Dictionary)형으로 생각하면 된다.
* 색인값에 데이터값을 매핑하고 있기 때문
* 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용 가능함 

In [14]:
'b' in obj2

True

In [15]:
'e' in obj2

False

In [16]:
# 사전 객체로부터 Series 객체 생성 가능
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000} # 딕셔너리 생성
obj3 = pd.Series(sdata) # 딕셔너리 객체로부터 Series 객체 생성

In [17]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [18]:
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 넘겨줄 수도 있다
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [20]:
# states에 들은 값 순서대로 색인을 지정, 기존에 존재하는 값은 value 그대로 가져감!
# California에 대한 값은 존재하지 않기 때문에 NaN(Not a number)으로 표시, NA로 취급
# 'Utah'는 states에 포함되어 있지 않아 실행 결과에서 빠지게 됨
obj4 = pd.Series(sdata, index=states)

In [21]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

>누락된 데이터: 'NA'
* pandas의 <b>isnull</b>과 <b>notnull</b> 함수는 누락된 데이터를 찾을 때 사용

In [22]:
# NAN 값인 NA만 True를 반환, 그 외 False
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [23]:
# isnull의 반대 결과
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [24]:
# 위의 결과들은 pandas의 함수로써 작동했다면, Series의 인스턴스 메서드로도 사용 가능하다
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

> <b>Series의 유용한 기능</b>: 산술 연산에서 색인과 라벨로 자동 정렬

In [25]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [26]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [27]:
# 데이터베이스에서 join연산과 비슷
# 데이터베이스에서 join이란, 두 개 이상의 테이블이나 데이터베이스를 연결하여 데이터를 검색하는 방법
obj3+obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

> <b>Series 객체와 Series의 색인은 모두 name 속성을 가지고 있음</b> (pandas의 핵심 기능과 밀접한 관련!)

In [28]:
obj4.name = 'population'

In [29]:
obj4.index.name = 'state'

In [30]:
# 진짜 DB 다룰 때랑 비슷한 느낌,,, 신기쓰,,,
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [31]:
# Series의 색인은 대입하여 변경 가능
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [32]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [33]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [34]:
# 이미 인덱스가 설정된 Series 객체도 가능할까?
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [35]:
obj2.index = ['four', 'seven', 'minus-five', 'three']

In [36]:
obj2 # 올ㅋ

four          4
seven         7
minus-five   -5
three         3
dtype: int64

### 2. DataFrame
* 표 같은 스프레드시트 형식의 자료구조
* 여러 개의 칼럼이 있는데, 각 컬럼은 서로 다른 종류의 값(숫자/문자열/불리언 등)을 담을 수 있음
* 로우와 컬럼에 대한 색인을 가지고 있음
  * 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 용이함
* 내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장
* 물리적으로 DataFrame은 2차원이지만 계층적 색인을 이용해서 보다 고차원의 데이터를 표현 할 수 있음

In [37]:
# DataFrame의 가장 흔한 생성 방법: 같은 길이의 리스트에 담긴 사전(혹은 NumPy 배열) 이용
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [39]:
frame = pd.DataFrame(data)

In [40]:
# Series와 같은 방식으로 자동으로 대입, 컬럼은 정렬되어 저장
# 주피터 노트북에서는 DataFrame 객체는 브라우저에서 좀 더 보기 편하도록 HTML 표 형식으로 출력
# 큰 DataFrame을 다룰 때에는 head 메서드를 이용해서 처음 5개의 로우만 출력할 수도 있음
frame # 올ㅋ

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [41]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [42]:
# 원하는 순서대로 Columns를 지정하면 원하는 순서를 가진 DataFrame 객체 생성
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [43]:
# Series와 마찬가지로 사전에 없는 값(dept)을 넘기면 결측치로 저장
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                            index=['one', 'two', 'three', 'four', 'five', 'six'])

In [44]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [45]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [46]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [47]:
# 위의 방법은 어떤 컬럼이든 가능하지만, 이 형태는 파이선에서 사용 가능한 변수 이름 형식일 때에만 작동
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [48]:
# 반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워짐
# 로우는 위치나 loc 속성을 이용해서 접근 가능
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [50]:
# 컬럼은 대입 가능
# 예) 현재 비어 있는 'debt' 컬럼에 스칼라값이나 배열값 대입 가능
frame2['debt'] = 16.5

In [51]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [52]:
frame2['debt'] = np.arange(6.)

In [53]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [54]:
# 리스트나 배열을 컬럼에 대입할 때는 대입하는 값의 길이가 DataFrame의 크기와 동일해야함
# Series를 대입하면 각 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치 대입
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [55]:
frame2['debt'] = val

In [56]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [57]:
# 존재하지 않는 컬럼 대입 시 새로운 컬럼 생성
# 먼저, state 컬럼의 값이 'Ohio'인지 아닌지에 대한 불리언값을 담고 있는 새로운 컬럼 생성
frame2['eastern'] = frame2.state == 'Ohio'

In [58]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [59]:
# 파이썬 사전형에서처럼 del 예약어를 사용하여 컬럼 삭제 가능
del frame2['eastern']

In [60]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [61]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


> DataFrame의 색인을 이용해서 얻은 컬럼은 내부 데이터에 대한 뷰(view)
* 즉, 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영
* 복사본이 필요하다면 Series의 copy() 메서드 활용

In [62]:
# 중첩된 사전을 이용하여 데이터 생성 가능
# 중첩된 사전 생성
pop = {'Nevada': {2001: 2.4, 2002:2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [63]:
frame3 = pd.DataFrame(pop)

In [64]:
# 바깥에 있는 사전의 키는 컬럼이 되고 안에 있는 키는 로우가 됨.
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [65]:
# NumPy 배열과 유사한 문법으로 데이터 전치 가능
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [66]:
# 기존 방식: 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 됨
# 색인을 직접 지정하면 지정된 색인으로 DataFrame 생성
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [67]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급
pdata = {'Ohio': frame3['Ohio'][:-1], 'Neveada': frame3['Nevada'][:2]}

In [68]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Neveada
2001,1.7,2.4
2002,3.6,2.9


In [69]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [70]:
frame3['Ohio'][:-1]

2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [71]:
frame3['Ohio'][:2]

2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [72]:
frame3['Ohio'][:-2]

2001    1.7
Name: Ohio, dtype: float64

In [73]:
# 데이터프레임의 색인과 컬럼에 name 속성 지정했다면 함께 출력됨
frame3.index.name = 'year'

In [74]:
frame3.columns.name = 'state'

In [75]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [78]:
# value 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [79]:
# DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위한 컬럼 배열의 dtype이 선택
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 색인 객체
* pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터를 저장하는 객체이다

In [80]:
# Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적인 색인으로 변환됨
obj = pd.Series(range(3), index=['a', 'b', 'c'])

In [81]:
index = obj.index

In [82]:
index

Index(['a', 'b', 'c'], dtype='object')

In [83]:
index[1:]

Index(['b', 'c'], dtype='object')

In [84]:
# 색인 객체는 변경이 불가능 -> 자료구조 사이에서 안전하게 공유
index[1] = 'd' # TypeError 발생

TypeError: Index does not support mutable operations

In [85]:
labels = pd.Index(np.arange(3))

In [87]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [88]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)

In [89]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [91]:
obj2.index is labels

True

### 정수 색인
* pandas 객체를 다루다보면 리스트나 튜플같은 파이썬 내장 자료구조에서 색인을 다루는 방법과의 차이가 있기에 실수 존재

In [92]:
ser = pd.Series(np.arange(3.))

In [93]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [94]:
# pandas는 라벨 색인을 찾는 데에 실패
# 라벨 색인이 0, 1, 2를 포함하는 경우 사용자가 라벨 색인으로 선택하려는 것인지 정수 색인으로 선택하려는 것인치 추측하기 쉽지 않음
# 일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현이 되어있기 때문
ser[-1]

KeyError: -1

In [95]:
# 정수기반의 색인을 사용하지 않으면 이런 모호함을 제거할 수 있음
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])

In [96]:
ser2[-1]

2.0

In [98]:
# 더 세밀하게 사용하고 싶다면 라벨에 대해서는 loc을 사용하고 정수 색인에 대해서는 iloc을 사용하자
ser[:1]

0    0.0
dtype: float64

In [99]:
# 라벨(즉, 지정한 인덱스로 슬라이싱)
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [100]:
# 정수 색인
ser.iloc[:1]

0    0.0
dtype: float64

### 산술 연산과 데이터 정렬
* 다른 색인을 가지고 있는 객체 간의 산술 연산 가능
* 객체를 더할 때 짝이 맞는 색인이 있다면 결과에 두 색인이 통합됨
* 외부 조인과 유사하게 동작

In [101]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [102]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [103]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [104]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [106]:
# 서로 겹치는 색인이 없는 경우 통합되나, 데이터는 NA 값이 된다
# 산술 연산 시 누락된 값은 전파된다 (???)
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [110]:
# DataFrame의 경우 정렬은 로우와 컬럼 모두에 적용
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])

In [112]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [113]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [114]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [115]:
# 두 DataFrame을 더하면 각 DataFrame에 있는 색인과 컬럼이 하나로 합쳐진다
# 'c'나 'e' 컬럼이 양쪽 DataFrame 모두에 존재하진 않으므로 결과에서는 모두 없는 값으로 나타난다.
# 즉, 공통되는 컬럼과 로우가 없는 경우 DataFrame을 더하면 결과에 아무것도 나타나지 않음
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


> 산술 연산 메서드에 채워 넣을 값 지정하기
* 서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값(0 등)으로 지정하고 싶을 때

In [117]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))

In [118]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [119]:
df2.loc[1, 'b'] = np.nan

In [120]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [121]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [122]:
# df1과 df2를 더하면 겹치지 않는 부분은 NA 값이 된다
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [123]:
# df1에 add 메서드를 사용하여 df2와 fill_value 값을 인자로 전달
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [124]:
# Series와 DataFrame의 산술 연산 메서드를 정리
# 각각의 산술 연산 메서드는 계산 인자를 뒤집어 계산하는 (r로 시작하는)짝궁 메서드를 가짐
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [125]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [127]:
# Series나 DataFrame을 재색인할 때에도 fill_value를 지정할 수 있음
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


### DataFrame과 Series 간의 연산

In [128]:
# 2차원 배열과 그 배열의 한 로우의 차이에 대해 생각할 수 있는 예제
arr = np.arange(12.).reshape((3, 4))

In [129]:
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [130]:
arr[0]

array([0., 1., 2., 3.])

In [132]:
# 각 로우에 대해 한 번씩만 수행 (=브로드캐스팅)
# DataFrame과 Series간의 연산은 이와 유사
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [134]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [135]:
series = frame.iloc[0]

In [136]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [137]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [138]:
# 기본적으로 DataFrame과 Series 간의 산술 연산은 Series의 색인을 DataFrame의 컬럼에 맞추고 아래 로우로 전파
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [140]:
# 색인 값을 DataFrame의 컬럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인
series2 = pd.Series(range(3), index=['b','e','f'])

In [141]:
frame+series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [142]:
# 각 로우에 대해 연산을 수행하고 싶다면 산술 연산 메서드 사용하면 됨
series3 = frame['d']

In [143]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [144]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [145]:
# 인자로 넘기는 axis값은 연산을 적용할 축 번호
# axis='index'나 axis=0은 DataFrame의 로우를 따라 연산을 수행하라는 의미
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0
