DataFrame은 표 같은 스프레드시트 형식의 자료구조이고 여러 개의 컬럼이 있는데 각 컬럼은 서로 다른 종류 값(숫자, 문자열 등)을 담을 수 있다. DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다. 내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 Collection이 아니라 하나 이상의 2차원 배열에 저장된다.  

DataFrame 객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것이다.

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [3]:
data = {'state': ['Incheon', 'Seoul', 'Suwon', 'Daegu', 'Busan', 'Paju'],
        'year': [2000, 2001, 2002, 2000, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [4]:
frame

Unnamed: 0,state,year,pop
0,Incheon,2000,1.5
1,Seoul,2001,1.7
2,Suwon,2002,3.6
3,Daegu,2000,2.4
4,Busan,2002,2.9
5,Paju,2003,3.2


큰 DataFrame을 다룰 때는 head 메소드를 이용해서 처음 5개의 로우만 출력할 수 있다.

In [5]:
frame.head()

Unnamed: 0,state,year,pop
0,Incheon,2000,1.5
1,Seoul,2001,1.7
2,Suwon,2002,3.6
3,Daegu,2000,2.4
4,Busan,2002,2.9


원하는 순서대로 **columns**를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.

In [6]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Incheon,1.5
1,2001,Seoul,1.7
2,2002,Suwon,3.6
3,2000,Daegu,2.4
4,2002,Busan,2.9
5,2003,Paju,3.2


Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다.

In [7]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

In [8]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Incheon,1.5,
two,2001,Seoul,1.7,
three,2002,Suwon,3.6,
four,2000,Daegu,2.4,
five,2002,Busan,2.9,
six,2003,Paju,3.2,


In [10]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.

In [11]:
frame2['state']

one      Incheon
two        Seoul
three      Suwon
four       Daegu
five       Busan
six         Paju
Name: state, dtype: object

In [12]:
frame2.year

one      2000
two      2001
three    2002
four     2000
five     2002
six      2003
Name: year, dtype: int64

> fram2[column] 형태로 사용하는 것은 어떤 컬럼이든 가능하지만 frame2.column 형태로 사용하는 것은 파이썬에서 사용 가능한 변수 이름 형식일 때만 작동한다.

반환된 Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다. 로우는 위치나 loc 속성을 이용해서 이름을 통해 접근할 수 있다.

In [13]:
frame2.loc['three']

year      2002
state    Suwon
pop        3.6
debt       NaN
Name: three, dtype: object

컬럼은 대입이 가능하다.

In [14]:
frame2['debt'] = 16.5

In [15]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Incheon,1.5,16.5
two,2001,Seoul,1.7,16.5
three,2002,Suwon,3.6,16.5
four,2000,Daegu,2.4,16.5
five,2002,Busan,2.9,16.5
six,2003,Paju,3.2,16.5


In [16]:
frame2['debt'] = np.arange(6.)

In [17]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Incheon,1.5,0.0
two,2001,Seoul,1.7,1.0
three,2002,Suwon,3.6,2.0
four,2000,Daegu,2.4,3.0
five,2002,Busan,2.9,4.0
six,2003,Paju,3.2,5.0


리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다. Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않은 색인에는 결측치가 대입된다.

In [18]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [19]:
frame2['debt'] = val

In [20]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Incheon,1.5,
two,2001,Seoul,1.7,-1.2
three,2002,Suwon,3.6,
four,2000,Daegu,2.4,-1.5
five,2002,Busan,2.9,-1.7
six,2003,Paju,3.2,


존재하지 않은 컬럼을 대입하면 새로운 컬럼을 생성한다. 파이썬 사전형에서처럼 **del** 예약어를 사용해서 컬럼을 삭제할 수 있다.

In [21]:
frame2['eastern'] = frame2.state == 'Incheon'

In [22]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Incheon,1.5,,True
two,2001,Seoul,1.7,-1.2,False
three,2002,Suwon,3.6,,False
four,2000,Daegu,2.4,-1.5,False
five,2002,Busan,2.9,-1.7,False
six,2003,Paju,3.2,,False


In [23]:
del frame2['eastern']

In [24]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

중첩된 사전을 이용해서 데이터를 생성할 수 있다.

In [25]:
pop = {'Seoul': {2001: 2.4}}

In [27]:
frame3 = pd.DataFrame(pop)

In [28]:
frame3

Unnamed: 0,Seoul
2001,2.4


NumPy 배열과 유사한 문법으로 데이터를 전치(컬럼과 로우를 뒤집음)할 수 있다.

In [29]:
frame3.T

Unnamed: 0,2001
Seoul,2.4


Series와 유사하게 value 속성은 DataFrame에 저장된 데이터를 **2차원 배열**로 반환된다.

In [30]:
frame2.values

array([[2000, 'Incheon', 1.5, nan],
       [2001, 'Seoul', 1.7, -1.2],
       [2002, 'Suwon', 3.6, nan],
       [2000, 'Daegu', 2.4, -1.5],
       [2002, 'Busan', 2.9, -1.7],
       [2003, 'Paju', 3.2, nan]], dtype=object)