#Ch. 5 pandas 시작하기

pandas는 고수준의 자료 구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구를 포함함

In [321]:
from pandas import Series, DataFrame
Series          #Series 바로사용

pandas.core.series.Series

Series와 DataFrame은 워낙 많이 사용하기 때문에 위와 같이 직접 네임스페이스로 불러들여 사용함. 

아래와 같이 하는 것보다 조금 덜 타이핑을 할 수있음.

In [322]:
import pandas           #pandas 를 네임 스페이로 읽음
pandas.Series           #pandas 안에  Series 를 사용

pandas.core.series.Series

In [323]:
import pandas as pd
#pd를 코드에서 보면 pandas로 지칭하겠다.

##5.1 pandas 자료 구조 소개

__ pandas의 대표적 자료구조__
 - Series
 - DataFrame

###5.1.1 Series

- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조.
- 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가짐.
- 가장 간단한 Series 객체는 배열 데이터로부터 생성 가능.

In [324]:
obj = Series([4,7,-5,3])

In [325]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에 색인, 오른쪽에 해당 색인의 값을 보여줌

위의 예제에서는 데이터의 색인을 지정하지 않았으므로 기본색인인 정수 0~n-1까지 숫자가 표시됨.

Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있음

In [326]:
obj.values

array([ 4,  7, -5,  3])

In [327]:
obj.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [328]:
obj2 = Series([4,7,-5,3], index=['d', 'b', 'a', 'c'])
#각각의 데이터를 지칭하는 색인을 지정해 Series 객체를 생성할수 있음

In [329]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [330]:
obj2.index

Index([u'd', u'b', u'a', u'c'], dtype='object')

In [331]:
#색인을 이용한  접근
obj2['a']

-5

In [332]:
#색인을 이용한  대입
obj2['d'] = 6

In [333]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [334]:
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64


여러 연산을 구행해도 색인-값 연결은 유지됨!

In [335]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [336]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [337]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [338]:
import numpy as np
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series는 색인 값에 데이터 값을 매핑하고 있으므로 파이썬의 사전형과 비슷함.

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있음.

In [339]:
'b' in obj2

True

In [340]:
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체르 생성할 수 도 있음

In [341]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

사전 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 색인은 사전의 키 값이 순서대로 들어감


In [342]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

#  California를 찾을수 없기 때문에 NaN(not a number)로 표시됨.

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

pandas의 **isnull**과 **notnull** 함수는 누락된 데이터를 찾을때 사용됨

In [343]:
pd.isnull(obj4)       

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [344]:
 pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [345]:
obj4.isnull()
#이 메서드는 Series의 인스턴스 메서드이기도 함

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

** 가장 중요한 Series의 기능은 다르게 색인된 데이터에 대한 산술연산**

In [346]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [347]:
obj4

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

In [348]:
obj3 + obj4

California       NaN
Ohio           70000
Oregon         32000
Texas         142000
Utah             NaN
dtype: float64

Series 객체와 Series의 색인은 모두 name 속성이 있는데, 이 속성은 pandas의 기능에서 중요한 부분을 차지함

In [349]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California      NaN
Ohio          35000
Oregon        16000
Texas         71000
Name: population, dtype: float64

In [350]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [351]:
#Series의 색인은 대입을 통해 변경 가능
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 5.1.2  DataFrame

- Pandas의 DataFrame은 2차원 형태의 데이터를 효과적으로 표현할 수 있는 데이터 구조

- 고차원의 표 형식 데이터를 계층적 색인을 통해 쉽게 표현 가능

In [352]:
data = {'state': ['Ohio', 'Ohio','Ohio', 'Nevada', 'Nevada'],
           'year' : [2000, 2001, 2002,2001,2002],
           'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

In [353]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [354]:
#원하는 순서대로 colums를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성
DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [355]:
#Series와 마찬가지로 data에 없는 값을 넘기면 NA 값이 저장
frame2 = DataFrame(data, columns = ['year', 'state', 'pop', 'debt'],
                               index=['one', 'two', 'three', 'four', 'five'])

In [356]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [357]:
#DataFrame의 칼럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근 가능
print  frame2['state']; frame2.year

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object


one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [358]:
#로우로 접근
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [359]:
#칼럼대입
frame2['debt'] = 16.5

In [360]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [361]:
frame2['debt'] = np.arange(5.)

In [362]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [363]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [364]:
#리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야함.
#Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않음.
val = Series([-1.2, -1.5, -1.7], index=['two','four', 'five'])
frame2['debt'] = val
print val;
frame2

two    -1.2
four   -1.5
five   -1.7
dtype: float64


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [365]:
#없는 칼럼을 대입하면 새로운 칼럼이 생성
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [366]:
del frame2['eastern']

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [367]:
#중첩된 사전이 있다면, 바깥에 있는 사전의 키 값이 칼럼이 되고 안에 있는 키는 로우가 된다.
pop = {'Nevada' : {2001:2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [368]:
#NumPy에서와 마찬가지로 결과 값의 순서를 뒤집을 수 있음.
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [369]:
#색인을 직접 지정한다면 지정된 색인으로 DataFrame을 생성
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [370]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


 ---------------------------------------------------------------------------------------------------------

In [371]:
frame3['Ohio']

2000    1.5
2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [372]:
frame3['Ohio'][:-1]

2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [373]:
frame3['Nevada'][:2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

In [374]:
pdata = {'Ohio':frame3['Ohio'][:-1], 'Nevada':frame3['Nevada'][:2]}

In [375]:
type(pdata)

dict

In [376]:
type(frame3['Ohio'][:-1])

pandas.core.series.Series

In [377]:
#Series객체를 담고 있는 사전 데이터도 같은 방식으로 취급됨
DataFrame(pdata)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


In [378]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [379]:
#Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

In [380]:
#DataFrame의 칼럽에 서로 다른 dtype이 있다면 모든 칼럼을 수요오하기 위해 그 칼럼 배열의 dtype이 선택
print frame2;
frame2.values

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7


array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

###5.1.3 색인 객체

- pandas의 색인객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터를 저장하는 객체

- Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 혹은 다른 순차적인 이름은 내부적으로 색인으로 변환

In [381]:
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index([u'a', u'b', u'c'], dtype='object')

In [382]:
index[1:]

Index([u'b', u'c'], dtype='object')

In [383]:
#색인객체는 변경할 수 없음.
index[1] = 'd'

TypeError: Indexes does not support mutable operations

In [None]:
type(index)

In [None]:
#색인 객체는 변경할 수 없기에 자료 구조 사이에서 안전하게 공유될 수 있음.
index = pd.Index(np.arange(3))
index


In [None]:
obj2 = Series([1.5, -2.5, 0], index=index)
print obj2.index is index;
obj2

| 클래스  | 설명 |
| :------------ | :-----------: |
| Index |가장 일반적인 Index 객체이며, 파이썬 객체의 NumPy 배열 형식으로 축의 이름을 표현한다.|
|Int62index|정수 값을 위한 특수한 Index|
|MultiIndex|단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체, 튜플의 배열과 유사하다고 볼 수 있다.|
|Datetimeindex|나노초 타임스탬프를 저장한다(NumPy의 datetime64 dtype으로 표현된다.|
|PeriodIndex|기간 데이터를 위한 특수한 Index|



In [None]:
#배열과 유사하게 Index 객체도 고정 크기로 동작
frame3

In [None]:
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

색인 메서드

In [None]:
frame2

In [None]:
frame3

In [None]:

#append : 추가적인 Index 객체를 덧붙여 새로운 색인 반환
frame3.append(frame2,ignore_index=False)

In [None]:
#diif 색인의 차집합을 반환한다.
frame3.diff(periods=1,axis=0)

In [None]:
frame3.isin([2.4])

##5.2 핵심 기능

###5.2.1 재색인

reindex는 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [None]:
obj = Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

In [None]:
 obj.reindex(['a', 'b', 'c', 'd', 'e'])

method 옵션에 ffill 메서드를 이용하면  시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣을수 잇다.

In [None]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0,2,4])
obj3

In [None]:
obj3.reindex(range(6))

In [None]:
obj3.reindex(range(6), method='ffill')

DataFrame에 대한 reindex는 색인(로우), 칼럼 또는 둘다 변경이 가능(순서만 전달하면 로우가 재색인)

In [None]:
frame = DataFrame(np.arange(9).reshape((3,3)), index = ['a', 'c' , 'd'], columns=['Ohio', 'Texas','California'])
frame

In [None]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

In [None]:
#열은 columns 예약어를 사용해서 재색인 가능
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

In [None]:
#로우와 칼럼을 모두 한 번에 재색인할 수  있지만 보간은 로우에 대해서만 이루어진다.
frame.reindex(index=['a', 'b', 'c' , 'd'],method='ffill', columns=states)

###5.2.2 하나의 로우 또는 칼럼 삭제하기

In [None]:
obj = Series(np.arange(5.),index=['a', 'b', 'c' , 'd','e'])
new_obj = obj.drop('c')
new_obj

In [None]:
obj.drop(['d','c'])

In [None]:
#DataFrame에서는 로우와 칼럼 모두에서 값을 삭제 가능
data = DataFrame(np.arange(16).reshape((4,4)),index=['Ohio','Colorado', 'Utah', 'New York'], columns=['one','two','three','four'] )
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
data.drop('two',axis=1)

In [None]:
data.drop(['two', 'four'] ,axis=1)

In [None]:
data.drop(['Ohio'] ,axis=0)

###5.2.3 색인하기, 선택하기, 거르기

Series의 색인은 Numpy 배열의 색인과 유사하게 동작하는데, Series의 색인은 정수가 아니어도 된다는 점이 다르다.

In [None]:
obj = Series(np.arange(4.), index=['a','b','c','d'])
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b','a','d']]

In [None]:
obj[[1,3]]

In [None]:
obj[obj<2]

In [None]:
#라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다르다.
obj['b':'c']

In [None]:
#슬라이싱 문법으로 선택된 영역에 값을 대입
obj['b':'c'] = 5
obj

In [None]:
#색인으로 DataFrame에서 칼럼의 값을 하나 이상 가져올 수 있다.
data = DataFrame(np.arange(16).reshape((4,4)),index=['Ohio','Colorado', 'Utah', 'New York'], columns=['one','two','three','four'] )
data

In [None]:
data['two']

In [None]:
data[['three','one']]

In [None]:
#슬라이싱으로 로우를 선택하거나 부리언 배열로 칼럼을 선택할 수도 있음
data[:2]

In [None]:
data[data['three']>5]

In [None]:
data<5

In [None]:
data[data<5] = 0
data

In [None]:
data.ix['Colorado', ['two','three']]

In [None]:
data.ix[['Colorado','Utah'], [3,0,1]]

In [None]:
data.ix[2]

In [None]:
data.ix[:'Utah','two']

In [None]:
data.ix[data.three>5,:3]