In [1]:
from pandas import Series, DataFrame
import pandas as pd

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


pandas를 import하구요. 사전형식으로 data를 선언하네요. 그 내용에는 state와 year, pop이 있네요. 그리고 이것을 DataFrame으로 선언하면 위와 같은 엑셀처럼 정리가 됩니다. 

In [2]:
DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


그리고 DataFrame에서 columns 속성에서 index의 순서를 변경해 줄 수 있습니다.

In [3]:
frame2 = DataFrame(data, columns = ['year', 'state', 'pop', 'debt'],
                  index = ['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


이번에는 0,1,2,3,4하는 인덱스를 변경한것이구요 columns에서 debt가 추가되었네요. 그러나 값은 없어서 NaN이 들어가 있군요.

In [4]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [5]:
frame2['year']

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

특정한 열의 값을 가져와서 볼 수 있습니다. 

In [6]:
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

행의 값을 확인하는 것은 ix 속성을 사용하면 됩니다. 

In [7]:
frame2.debt = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


아까 NaN이었던 debt에 값을 인가하는 방식이네요

In [8]:
import numpy as np
frame2.debt = np.arange(5)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [9]:
val = Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame2.debt = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


혹은 index를 지정하고 직접 값을 입력해도 가능하네요

In [12]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


frmae2의 state가 ohio이면 True, 아니면 False를 eastern이라는 열에 배치하라는 것을 저렇게 한 줄로 ... 이해하기 쉽게 입력할 수 있네요 

In [13]:
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


열 속성을 지울 수 있네요

In [14]:
pop = {'Nevada' : {2001 : 2.4, 2002 : 2.9}, 'Ohio' : {2000 : 1.5, 2001 : 1.7, 2002 : 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [15]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


DataFrame도 numpy의 transpose처럼 행과 열을 바꿀 수 있습니다.

In [16]:
DataFrame(pop, index = [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [17]:
pdata = {'Ohio' : frame3['Ohio'][:-1],
         'Nevada' : frame3 ['Nevada'][:2]}
DataFrame(pdata)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


역시 numpy처럼 특정 범위만 DataFrame으로 구성 가능하죠

In [18]:
frame3.index.name = 'year'
frame3.columns.name = 'State'
frame3

State,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [19]:
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

또 열과 행 자체에 이름(name)을 지정할 수 있습니다.