In [2]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

## 5.1. pandas 자료구조 소개

### 5.1.1. Series

Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조 + index가 있어 각 element에 접근 

In [3]:
obj = Series([4,7,-5,3])

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
print(obj.values) #obj의 값
print(obj.index) #obj의 index

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [6]:
obj2 = Series([4,7,5,3], index = ['d','a','b','c'])

In [8]:
print(obj2) #index가 위 obj와 다름
print(obj2.index)

d    4
a    7
b    5
c    3
dtype: int64
Index([u'd', u'a', u'b', u'c'], dtype='object')


In [11]:
print(obj2['a']) #원래 'a'는 7
obj2['a'] = 6
print(obj2[['c','a','d']]) #'a'가 6으로 변함

7
c    3
a    6
d    6
dtype: int64


In [12]:
obj2[obj2 >0 ]

d    6
a    6
b    5
c    3
dtype: int64

In [13]:
print(obj2*2)
print(np.exp(obj2))

d    12
a    12
b    10
c     6
dtype: int64
d    403.428793
a    403.428793
b    148.413159
c     20.085537
dtype: float64


In [14]:
print('b' in obj2)
print('z' in obj2) ## obj2에 'z' index는 없음

True
False


In [15]:
sdata = {'Ohio':35000, 'Texas':71000,'Oregon':16000,'Utah':5000} #사전 객체 생성
obj3 = Series(sdata) #사전 객체로부터 Series 객체 생성
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [16]:
states = ['California', 'Ohio', 'Oregon','Texas']
obj4 = Series(sdata, index = states) ## 사전의 키 값 순서대로 series 객체의 색인이 들어감
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [17]:
print(pd.isnull(obj4))
print(pd.notnull(obj4)) # 위의 결과와 반대로 나온다

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [18]:
obj4.name = 'population' #obj4 객체 이름
obj4.index.name = 'state' #obj4 객체의 index 이름

In [19]:
obj4 # index의 위에 state가 들어가고, 맨 밑에 Name: population을 확인할 수 있다

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [20]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj #아까는 0~3으로 되어 있던 index가 위의 리스트대로 변경됨

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 5.1.2. DataFrame

DataFrame은 색인의 모양이 같은 Series 객체를 담고있는 파이썬 사전

DataFrame 객체 생성방법: 같은 길이의 리스트에 담기 사전 이용 or Numpy 배열 이용

In [22]:
data = {'state': ['Ohio', 'Nevada','Nevada'],
        'year' : [2000, 2002, 2003],
        'pop' : [1.5,3.6,2.9]} ## 사전 객체 생성
frame = DataFrame(data) ## DataFrame 생성

In [23]:
frame ## 아래와 같이 표처럼 나온다

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,3.6,Nevada,2002
2,2.9,Nevada,2003


In [24]:
DataFrame(data, columns= ['year','state','pop']) ## column의 순서가 바뀐다

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2002,Nevada,3.6
2,2003,Nevada,2.9


In [30]:
frame2 = DataFrame(data, columns = ['year','state','pop','debt'],index =['one','two','three'])

In [31]:
print(frame2) ## debt 컬럼에 NA 값이 저장되는 것을 확인할 수 있다.
print(frame2.columns)

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2002  Nevada  3.6  NaN
three  2003  Nevada  2.9  NaN
Index([u'year', u'state', u'pop', u'debt'], dtype='object')


In [32]:
print(frame2['state']) ## 사전형식으로 접근
print(frame2.state) ## 속성형식으로 접근

one        Ohio
two      Nevada
three    Nevada
Name: state, dtype: object
one        Ohio
two      Nevada
three    Nevada
Name: state, dtype: object


In [43]:
print(frame2.ix['three']) ##ix 메서드를 이용해서 접근

year       2003
state    Nevada
pop         2.9
debt        NaN
Name: three, dtype: object


In [44]:
frame2['debt'] = 16.5 ##debt 컬럼에 16.5 대입
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2002  Nevada  3.6  16.5
three  2003  Nevada  2.9  16.5


In [45]:
val = Series([-1.2,-1.5], index = ['one', 'three']) 
frame2['debt'] = val ## 위의 Series를 대입하면 DataFrame의 색인에 따라 값이 대입, 없는 색인에는 NA(값이 대입X)
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2002  Nevada  3.6   NaN
three  2003  Nevada  2.9  -1.5


In [46]:
frame2['eastern'] = frame2.state == 'Ohio'
print(frame2) ## frame2의 state 컬럼이 Ohio일 경우, True, 아니면 False
del frame2['eastern']
print(frame2) ## eastern 컬럼 삭제

       year   state  pop  debt eastern
one    2000    Ohio  1.5  -1.2    True
two    2002  Nevada  3.6   NaN   False
three  2003  Nevada  2.9  -1.5   False
       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2002  Nevada  3.6   NaN
three  2003  Nevada  2.9  -1.5


In [47]:
pop = {'Nevada': {2001:2.4, 2002:2.9},
       'Ohio': {2000: 1.5, 2001:1.7, 2002:3.6}}
frame3 = DataFrame(pop) ## 중첩된 사전을 이용한 데이터프레임 생성
print(frame3)
print(frame3.T) ## Transpose 할수있음

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6
        2000  2001  2002
Nevada   NaN   2.4   2.9
Ohio     1.5   1.7   3.6


In [48]:
frame3.index.name = 'year' ## 인덱스 이름
frame3.columns.name = 'state' ## 컬럼 이름
print(frame3)

state  Nevada  Ohio
year               
2000      NaN   1.5
2001      2.4   1.7
2002      2.9   3.6


In [49]:
print(frame3.values) ## 2차원 배열로 변환
print(frame2.values) 

[[ nan  1.5]
 [ 2.4  1.7]
 [ 2.9  3.6]]
[[2000L 'Ohio' 1.5 -1.2]
 [2002L 'Nevada' 3.6 nan]
 [2003L 'Nevada' 2.9 -1.5]]


### 5.1.3.  색인객체

In [51]:
obj = Series(range(3), index = ['a','b','c'])
index = obj.index
print(index)
print(type(index)) ## 색인객체임

Index([u'a', u'b', u'c'], dtype='object')
<class 'pandas.indexes.base.Index'>


In [52]:
index[1] = 'd' ## 색인객체는 변경할 수 없음

TypeError: Index does not support mutable operations

In [53]:
index = pd.Index(np.arange(3))
obj2 = Series([1.5,-2.5,0], index = index) ## Index 객체를 공유
obj2.index is index

True

색인 method 종류 ## 잘 사용하면 데이터 처리에 유용한 method
: append, diff, intersection, union, isin, delete, drop, insert, is_monotonic, is_unique, unique

## 5.2. 핵심기능

### 5.2.1. 재색인

In [54]:
obj = Series([4.5,7.2,-5.3,3.6], index = ['d','b','a','c'])

In [55]:
print(obj)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64


In [62]:
obj2 = obj.reindex(['a','b','c','d','e'])
print(obj2)
print(obj.reindex(['a','b','c','d','e'])) ## 비어있는 값에 NA을 대입
print(obj.reindex(['a','b','c','d','e'], fill_value = 0)) ## 비어있는 값에 0을 대입
print(obj.reindex(['a','b','c','d','e','f'], method = 'ffill')) ## 비어있는 값에 0을 대입

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64
a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64


ValueError: index must be monotonic increasing or decreasing