In [3]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

## DataFrame
#### DataFrame은 스프레드싯트와 같이 여러개의 컬럼을 가지고 있고, 각 컬럼은 서로 다른 종류의 값을 담을수 있다.

In [5]:
# 같은 길이의 배열을 가진 dictionary를 이용해 DataFrame생성
data = {
    'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year' : [2000, 2001, 2002, 2001, 2002],
    'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]
}
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [7]:
# 컬럼명을 지정해 컬럼순서를 정할수 있다.
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [11]:
# 컬럼명과 동시에 index명도 지정 가능하다.
frame2 = DataFrame(data, columns=['year', 'state', 'pop'], index=['one', 'two','three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


In [15]:
#컬럼명 조회는 DataFrame.columns로 조회한다.
frame2.columns

Index(['year', 'state', 'pop'], dtype='object')

In [20]:
#특정 컬럼에 대한 조회는 dictionary객체와 같이 key값으로 조회한다. 
#복수개의 컬럼이 필요한 경우는 배열을 이용해 조회한다. 
#SQL문의 SELECT 컬럼a, 컬럼b와 비슷한 컨셉으로 이해하자.
frame2[['state', 'year']]

Unnamed: 0,state,year
one,Ohio,2000
two,Ohio,2001
three,Ohio,2002
four,Nevada,2001
five,Nevada,2002


In [23]:
#특정 로우에 대한 접근은 ix를 통한다. 역시 복수개의 로우는 배열을 이용한다.
frame2.ix[['two', 'three']]

Unnamed: 0,year,state,pop
two,2001,Ohio,1.7
three,2002,Ohio,3.6


In [28]:
#컬럼은 신규 컬럼명 명시후 값을 할당하면 된다.
frame2['debt'] = 17.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,17.5
two,2001,Ohio,1.7,17.5
three,2002,Ohio,3.6,17.5
four,2001,Nevada,2.4,17.5
five,2002,Nevada,2.9,17.5


In [30]:
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [33]:
#Series를 컬럼에 대입하면, index가 같은 값은 값은 갱신되며, 매칭되지 않는 index는 NaN처리 된다.
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] =val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [42]:
#없는 컬럼에 새로운 값을 할당하면 신규 컬럼이 생성되고 , 삭제는 del 키워드를 이용한다.
frame2['eastern']  = frame2['state'] == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [43]:
#del 키워드를 이용하여 컬럼 삭제
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [45]:
#중첩된 사전의 경우, 안쪽 사전의 Key값이 index가 된다.
pop = {
    'Nevada' : {2001: 2.4, 2002: 2.9},
    'Ohio' : {2000: 1.5, 2001 : 1.7, 2002 : 3.6}
}

frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [47]:
#T 키워드를 이용하여, 열과 행을 바꿀수 있다.
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [48]:
#values를 이용하여, 값을 2차원 배열로 반환할수 있다.
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])